编程 Python

Python爬虫爬取、解析数据操作示例

Posted in Python onMarch 27, 2020

本文实例讲述了Python爬虫爬取、解析数据操作。分享给大家供大家参考，具体如下：

爬虫当当网 http://search.dangdang.com/?key=python&act=input&page_index=1

获取书籍相关信息
面向对象思想
利用不同解析方式和存储方式

引用相关库

import requests
import re
import csv
import pymysql
from bs4 import BeautifulSoup
from lxml import etree
import lxml
from lxml import html

类代码实现部分

class DDSpider(object):
  #对象属性 参数 关键字 页数
  def __init__(self,key='python',page=1):
    self.url = 'http://search.dangdang.com/?key='+key+'&act=input&page_index={}'
    self.page = page
    self.headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36'}

    
  #私有对象方法
  def __my_url(self):
    my_url = []
    if self.page < 1:
      my_page = 2
    else:
      my_page = self.page+1
    #循环遍历每一页
    for i in range(1,my_page):
      my_url.append(self.url.format(i))
    return my_url
  
  #私有对象方法 请求数据
  def __my_request(self,url,parser_type):
    #循环遍历每一页
    response = requests.get(url=url,headers=self.headers)
    if response.status_code == 200:
      return self.__my_parser(response.text,parser_type)
    else:
      return None
    
  #私有对象方法 解析数据 1 利用正则 2 bs4 3 xpath
  def __my_parser(self,html,my_type=1):
    if my_type == 1:
      pattern = re.compile('<p.*?class=[\'\"]name[\'\"].*?name=[\'\"]title[\'\"].*?<a.*?title=[\'\"](.*?)[\'\"].*?href=[\'\"](.*?)[\'\"].*?name=[\'\"]itemlist-title[\'\"].*?<p class=[\'\"]detail[\'\"].*?>(.*?)</p>.*?<span.*?class=[\'\"]search_now_price[\'\"].*?>(.*?)</span>.*?<p.*?class=[\'\"]search_book_author[\'\"].*?><span>.*?<a.*?name=[\'\"]itemlist-author[\'\"].*?title=[\'\"](.*?)[\'\"].*?</span>',re.S)
      result = re.findall(pattern,html)
    elif my_type == 2:
      soup = BeautifulSoup(html,'lxml')
      result = []
      title_url = soup.find_all('a',attrs={'name':'itemlist-title'})
      for i in range(0,len(title_url)):
        title = soup.find_all('a',attrs={'name':'itemlist-title'})[i].attrs['title']
        url = soup.find_all('a',attrs={'name':'itemlist-title'})[i].attrs['href']
        price = soup.find_all('span',attrs={'class':'search_now_price'})[i].get_text()
        author = soup.find_all('a',attrs={'name':'itemlist-author'})[i].attrs['title']
        desc = soup.find_all('p',attrs={'class':'detail'})[i].get_text()
        my_tuple = (title,url,desc,price,author)
        result.append(my_tuple)
    else:
      html = etree.HTML(html)
      li_all = html.xpath('//div[@id="search_nature_rg"]/ul/li')
      result = []
      for i in range(len(li_all)):
        title = html.xpath('//div[@id="search_nature_rg"]/ul/li[{}]/p[@class="name"]/a/@title'.format(i+1))
        url = html.xpath('//div[@id="search_nature_rg"]/ul/li[{}]/p[@class="name"]/a/@href'.format(i+1))
        price = html.xpath('//div[@id="search_nature_rg"]/ul/li[{}]//span[@class="search_now_price"]/text()'.format(i+1))
        author_num = html.xpath('//div[@id="search_nature_rg"]/ul/li[{}]/p[@class="search_book_author"]/span[1]/a'.format(i+1))
        if len(author_num) != 0:
          #有作者 a标签
          author = html.xpath('//div[@id="search_nature_rg"]/ul/li[{}]/p[@class="search_book_author"]/span[1]/a[1]/@title'.format(i+1))
        else:
          #没有作者 a标签
          author = html.xpath('//div[@id="search_nature_rg"]/ul/li[{}]/p[@class="search_book_author"]/span[1]/text()'.format(i+1))
        desc = html.xpath('//div[@id="search_nature_rg"]/ul/li[{}]/p[@class="detail"]/text()'.format(i+1))
        my_tuple = (" ".join(title)," ".join(url)," ".join(desc)," ".join(price)," ".join(author))
        result.append(my_tuple)
        
    return result
  
  #私有对象方法 存储数据 1 txt 2 csv 3 mysql
  def __my_save(self,data,save_type=1):
    #循环遍历
    for value in data:
      if save_type == 1:
        with open('ddw.txt','a+',encoding="utf-8") as f:
          f.write('【名称】：{}【作者】：{}【价格】：{}【简介】：{}【链接】：{}'.format(value[0],value[4],value[3],value[2],value[1]))
      elif save_type == 2:
        with open('ddw.csv','a+',newline='',encoding='utf-8-sig') as f:
          writer = csv.writer(f)
          #转化为列表 存储
          writer.writerow(list(value))
      else:
        conn = pymysql.connect(host='127.0.0.1',user='root',passwd='',db='',port=3306,charset='utf8')
        cursor = conn.cursor()
        sql = ''
        cursor.execute(sql)
        conn.commit()
        cursor.close()
        conn.close()
  #公有对象方法 执行所有爬虫操作
  def my_run(self,parser_type=1,save_type=1):
    my_url = self.__my_url()
    for value in my_url:
      result = self.__my_request(value,parser_type)
      self.__my_save(result,save_type)

调用爬虫类实现数据获取

if __name__ == '__main__':
  #实例化创建对象
  dd = DDSpider('python',0)
  #参数 解析方式 my_run(parser_type,save_type)
  # parser_type 1 利用正则 2 bs4 3 xpath 
  #存储方式 save_type 1 txt 2 csv 3 mysql
  dd.my_run(2,1)

==总结一下: ==

1. 总体感觉正则表达式更简便一些 , 代码也会更简便 , 但是正则部分相对复杂和困难
2. bs4和xpath 需要对html代码有一定了解 , 取每条数据多个值时相对较繁琐

更多关于Python相关内容可查看本站专题：《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python爬虫爬取、解析数据操作示例

- Author -

OldKind超

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python实现的数据结构与算法之双端队列详解

Apr 22 Python

在Django中限制已登录用户的访问的方法

Jul 23 Python

Python处理JSON数据并生成条形图

Aug 05 Python

Python基于回溯法子集树模板解决野人与传教士问题示例

Sep 11 Python

python基于itchat模块实现微信防撤回

Apr 29 Python

详解用python写网络爬虫-爬取新浪微博评论

May 10 Python

解决django 新增加用户信息出现错误的问题

Jul 28 Python

Pytorch 搭建分类回归神经网络并用GPU进行加速的例子

Jan 09 Python

Python实现结构体代码实例

Feb 10 Python

python 最简单的实现适配器设计模式的示例

Jun 30 Python

Python 如何创建一个线程池

Jul 28 Python

Python re.sub 反向引用的实现

Jul 07 Python

python opencv进行图像拼接

Mar 27 #Python

Python爬虫爬取电影票房数据及图表展示操作示例

Mar 27 #Python

Pyspark读取parquet数据过程解析

Mar 27 #Python

Python基于pyecharts实现关联图绘制

Mar 27 #Python

Python爬虫爬取杭州24时温度并展示操作示例

Mar 27 #Python

Django添加bootstrap框架时无法加载静态文件的解决方式

Mar 27 #Python

Python itertools.product方法代码实例

Mar 27 #Python

You might like

php 中英文语言转换类代码

2011/08/11 PHP

谈谈关于php的优点与缺点

2013/04/11 PHP

ThinkPHP3.1新特性之对Ajax的支持更加完善

2014/06/19 PHP

php实现统计网站在线人数的方法

2015/05/12 PHP

PHP的文件操作与算法实现的面试题示例

2015/08/10 PHP

Yii2 assets清除缓存的方法

2016/05/16 PHP

在Laravel5.6中使用Swoole的协程数据库查询

2018/06/15 PHP

Yii框架where查询用法实例分析

2019/10/22 PHP

Jquery插件 easyUI属性汇总

2011/01/19 Javascript

一个奇葩的最短的 IE 版本判断JS脚本

2014/05/28 Javascript

IE8中使用javascript动态加载CSS的解决方法

2014/06/17 Javascript

js控制鼠标事件移动及移出效果显示

2014/10/19 Javascript

node.js+Ajax实现获取HTTP服务器返回数据

2014/11/26 Javascript

jQuery+Ajax+PHP+Mysql实现分页显示数据实例讲解

2015/09/27 Javascript

浅析JavaScript声明变量

2015/12/21 Javascript

JavaScript之事件委托实例(附原生js和jQuery代码)

2017/07/22 jQuery

js使用html2canvas实现屏幕截取的示例代码

2017/08/28 Javascript

如何封装了一个vue移动端下拉加载下一页数据的组件

2019/01/06 Javascript

jQuery实现简易聊天框

2020/02/08 jQuery

JS实现多选框的操作

2020/06/24 Javascript

vue中watch和computed的区别与使用方法

2020/08/23 Javascript

Ant Design Vue table中列超长显示...并加提示语的实例

2020/10/31 Javascript

Python实现简单拆分PDF文件的方法

2015/07/30 Python

python的paramiko模块实现远程控制和传输示例

2017/10/13 Python

分析python切片原理和方法

2017/12/19 Python

python利用后缀表达式实现计算器功能

2021/02/22 Python

安全的后院和健身蹦床：JumpSport

2019/07/15 全球购物

俄罗斯最大的在线珠宝大卖场：Nebo

2019/12/08 全球购物

通信研究生自荐信

2014/02/01 职场文书

《火烧云》教学反思

2014/04/12 职场文书

社区优秀志愿者先进事迹

2014/05/09 职场文书

项目申报专员岗位职责

2014/07/09 职场文书

建筑节能汇报材料

2014/08/22 职场文书

公诉意见书范文

2015/06/05 职场文书

JavaScript实现显示和隐藏图片

2021/04/29 Javascript

Python自动化实战之接口请求的实现

2022/05/30 Python