编程 Python

Python基于多线程实现抓取数据存入数据库的方法

Posted in Python onJune 22, 2018

本文实例讲述了Python基于多线程实现抓取数据存入数据库的方法。分享给大家供大家参考，具体如下：

1. 数据库类

"""
使用须知：
代码中数据表名 aces ，需要更改该数据表名称的注意更改
"""
import pymysql
class Database():
  # 设置本地数据库用户名和密码
  host = "localhost"
  user = "root"
  password = ""
  database = "test"
  port = 3306
  charset = "utf8"
  cursor=''
  connet =''
  def __init__(self):
    #连接到数据库
    self.connet = pymysql.connect(host = self.host , user = self.user,password = self.password , database = self.database, charset = self.charset)
    self.cursor = self.connet.cursor()
  # #删表
  def dropTables(self):
    self.cursor.execute('''''drop table if exists aces''')
    print("删表")
  #建表
  def createTables(self):
    self.cursor.execute('''''create table if not exists aces
            (
              asin  varchar(11) primary key not null,
              checked varchar(200));''')
    print("建表")
  #保存数据
  def save(self,aceslist):
    self.cursor.execute("insert into aces ( asin, checked) values(%s,%s)", (aceslist[0],aceslist[1]))
    self.connet.commit()
  #判断元素是否已经在数据库里，在就返回true ,不在就返回false
  def is_exists_asin(self,asin):
    self.cursor.execute('select * from aces where asin = %s',asin)
    if self.cursor.fetchone() is None:
      return False
    return True
# db =Database()

2. 多线程任务类

import urllib.parse
import urllib.parse
import urllib.request
from queue import Queue
import time
import random
import threading
import logging
import pymysql
from bs4 import BeautifulSoup
from local_data import Database
#一个模块中存储多个类 AmazonSpeder , ThreadCrawl(threading.Thread), AmazonSpiderJob
class AmazonSpider():
  def __init__(self):
    self.db = Database()
  def randHeader(self):
    head_connection = ['Keep-Alive', 'close']
    head_accept = ['text/html, application/xhtml+xml, */*']
    head_accept_language = ['zh-CN,fr-FR;q=0.5', 'en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3']
    head_user_agent = ['Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko',
              'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.95 Safari/537.36',
              'Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; rv:11.0) like Gecko)',
              'Mozilla/5.0 (Windows; U; Windows NT 5.2) Gecko/2008070208 Firefox/3.0.1',
              'Mozilla/5.0 (Windows; U; Windows NT 5.1) Gecko/20070309 Firefox/2.0.0.3',
              'Mozilla/5.0 (Windows; U; Windows NT 5.1) Gecko/20070803 Firefox/1.5.0.12',
              'Opera/9.27 (Windows NT 5.2; U; zh-cn)',
              'Mozilla/5.0 (Macintosh; PPC Mac OS X; U; en) Opera 8.0',
              'Opera/8.0 (Macintosh; PPC Mac OS X; U; en)',
              'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.12) Gecko/20080219 Firefox/2.0.0.12 Navigator/9.0.0.6',
              'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Win64; x64; Trident/4.0)',
              'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0)',
              'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.2; .NET4.0C; .NET4.0E)',
              'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Maxthon/4.0.6.2000 Chrome/26.0.1410.43 Safari/537.1 ',
              'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.2; .NET4.0C; .NET4.0E; QQBrowser/7.3.9825.400)',
              'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:21.0) Gecko/20100101 Firefox/21.0 ',
              'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.92 Safari/537.1 LBBROWSER',
              'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; BIDUBrowser 2.x)',
              'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.11 TaoBrowser/3.0 Safari/536.11']
    header = {
      'Connection': head_connection[0],
      'Accept': head_accept[0],
      'Accept-Language': head_accept_language[1],
      'User-Agent': head_user_agent[random.randrange(0, len(head_user_agent))]
    }
    return header
  def getDataById(self , queryId):
    #如果数据库中有的数据，直接返回不处理
    if self.db.is_exists_asin(queryId):
      return
    req = urllib.request.Request(url="https://www.amazon.com/dp/"+str(queryId) , headers=self.randHeader())
    webpage = urllib.request.urlopen(req)
    html = webpage.read()
    soup = BeautifulSoup(html, 'html.parser')
    content = soup.find_all("span" , id = "asTitle")
    # 加入一种判断，有的asin没有该定位，
    if len(content):
      # 非空
      state = content[0].string
    else:
      # 列表为空，没有定位到
      state = "other"
    print(queryId)
    print(state)
    self.db.save([queryId,state])
class ThreadCrawl(threading.Thread): #ThreadCrawl类继承了Threading.Thread类
  def __init__(self, queue): #子类特有属性， queue
    FORMAT = time.strftime("[%Y-%m-%d %H:%M:%S]", time.localtime()) + "[AmazonSpider]-----%(message)s------"
    logging.basicConfig(level=logging.INFO, format=FORMAT)
    threading.Thread.__init__(self)
    self.queue = queue
    self.spider = AmazonSpider() #子类特有属性spider， 并初始化，将实例用作属性
  def run(self):
    while True:
      success = True
      item = self.queue.get() #调用队列对象的get()方法从队头删除并返回一个项目item
      try:
        self.spider.getDataById(item) #调用实例spider的方法getDataById(item)
      except :
        # print("失败")
        success = False
      if not success :
        self.queue.put(item)
      logging.info("now queue size is: %d" % self.queue.qsize()) #队列对象qsize()方法，返回队列的大小
      self.queue.task_done() #队列对象在完成一项工作后，向任务已经完成的队列发送一个信号
class AmazonSpiderJob():
  def __init__(self , size , qs):
    self.size = size # 将形参size的值存储到属性变量size中
    self.qs = qs
  def work(self):
    toSpiderQueue = Queue() #创建一个Queue队列对象
    for q in self.qs:
      toSpiderQueue.put(q) #调用队列对象的put()方法，在对尾插入一个项目item
    for i in range(self.size):
      t = ThreadCrawl(toSpiderQueue)  #将实例用到一个类的方法中
      t.setDaemon(True)
      t.start()
    toSpiderQueue.join()  #队列对象，等到队列为空，再执行别的操作

3. 主线程类

from amazon_s import AmazonSpiderJob #从一个模块中导入类
import pymysql
import pandas as pd
from local_data import Database
if __name__ == '__main__':
  #初次跑程序的时候，需要删除旧表，然后新建表，之后重启再跑的时候需要注释
  #----------------------
  db = Database()
  db.dropTables()
  db.createTables()
  #---------------------------
  df = pd.read_excel("ASIN检查_viogico_1108.xlsx")
  # print(df.info())
  qs = df["asin1"].values
  print(qs)
  print(len(qs))
  amazonJob = AmazonSpiderJob(8, qs)
  amazonJob.work()

希望本文所述对大家Python程序设计有所帮助。

Python基于多线程实现抓取数据存入数据库的方法

- Author -

zn505119020

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python的Flask框架中配置多个子域名的方法讲解

Jun 07 Python

python 处理数字,把大于上限的数字置零实现方法

Jan 28 Python

详解利用OpenCV提取图像中的矩形区域（PPT屏幕等）

Jul 01 Python

djano一对一、多对多、分页实例代码

Aug 16 Python

python使用多线程编写tcp客户端程序

Sep 02 Python

使用Python制作一个打字训练小工具

Oct 01 Python

Pytorch 实现focal_loss 多类别和二分类示例

Jan 14 Python

Tensorflow 模型转换 .pb convert to .lite实例

Feb 12 Python

django从后台返回html代码的实例

Mar 11 Python

150行Python代码实现带界面的数独游戏

Apr 04 Python

Windows下PyCharm配置Anaconda环境(超详细教程)

Jul 31 Python

解决Django transaction进行事务管理踩过的坑

Apr 24 Python

python实现比较文件内容异同

Jun 22 #Python

python实现输入数字的连续加减方法

Jun 22 #Python

Python之用户输入的实例

Jun 22 #Python

Python交互环境下实现输入代码

Jun 22 #Python

python实现搜索文本文件内容脚本

Jun 22 #Python

python实现textrank关键词提取

Jun 22 #Python

python实现自主查询实时天气

Jun 22 #Python

You might like

phplock(php进程锁) v1.0 beta1

2009/11/24 PHP

PHP压缩html网页代码(清除空格,换行符,制表符,注释标记)

2012/04/02 PHP

解析smarty 截取字符串函数 truncate的用法介绍

2013/06/20 PHP

php 检查电子邮件函数(自写)

2014/01/16 PHP

javascript eval(func())使用示例

2013/12/05 Javascript

JavaScript数组深拷贝和浅拷贝的两种方法

2014/04/16 Javascript

jquery实现适用于门户站的导航下拉菜单效果代码

2015/08/24 Javascript

JQuery控制图片由中心点逐渐放大效果

2016/06/26 Javascript

JS 实现 ajax 异步浏览器兼容问题

2017/01/21 Javascript

Bootstrap 网格系统布局详解

2017/03/19 Javascript

vue 如何添加全局函数或全局变量以及单页面的title设置总结

2017/06/01 Javascript

微信小程序wx:for和wx:for-item的用法详解

2018/04/01 Javascript

JS通过位运算实现权限加解密

2018/08/14 Javascript

浅谈vue项目4rs vue-router上线后history模式遇到的坑

2018/09/27 Javascript

利用node 判断打开的是文件还是文件夹的实例

2019/06/10 Javascript

ES6顶层对象、global对象实例分析

2019/06/14 Javascript

layui实现数据分页功能（ajax异步）

2019/07/27 Javascript

React.js组件实现拖拽排序组件功能过程解析

2020/04/27 Javascript

javascript中的offsetWidth、clientWidth、innerWidth及相关属性方法

2020/05/14 Javascript

[01:45:05]VGJ.T vs Newbee Supermajor 败者组 BO3 第二场 6.6

2018/06/07 DOTA

详尽讲述用Python的Django框架测试驱动开发的教程

2015/04/22 Python

python创建文件时去掉非法字符的方法

2018/10/31 Python

Django之使用内置函数和celery发邮件的方法示例

2019/09/16 Python

python实现图像外边界跟踪操作

2020/07/13 Python

Python读取yaml文件的详细教程

2020/07/21 Python

Python打印不合法的文件名

2020/07/31 Python

HTML5离线缓存Manifest是什么

2016/03/09 HTML / CSS

英国电信商店：BT Shop

2019/12/17 全球购物

Java程序员面试90题

2013/10/19 面试题

教研处工作方案

2014/05/26 职场文书

汉语言文学毕业求职信

2014/07/17 职场文书

水电施工员岗位职责

2015/04/11 职场文书

家长对学校的意见和建议

2015/06/03 职场文书

暗恋桃花源观后感

2015/06/12 职场文书

2015入党自传格式范文

2015/06/26 职场文书

导游词之新疆尼雅遗址

2019/10/16 职场文书