编程 Python

python面向对象多线程爬虫爬取搜狐页面的实例代码

Posted in Python onMay 31, 2018

首先我们需要几个包：requests, lxml, bs4, pymongo, redis

1. 创建爬虫对象，具有的几个行为：抓取页面，解析页面，抽取页面，储存页面

class Spider(object):
 def __init__(self):
  # 状态(是否工作)
  self.status = SpiderStatus.IDLE
 # 抓取页面
 def fetch(self, current_url):
  pass
 # 解析页面
 def parse(self, html_page):
  pass
 # 抽取页面
 def extract(self, html_page):
  pass
 # 储存页面
 def store(self, data_dict):
  pass

2. 设置爬虫属性，没有在爬取和在爬取中，我们用一个类封装， @unique使里面元素独一无二，Enum和unique需要从 enum里面导入：

@unique
class SpiderStatus(Enum):
 IDLE = 0
 WORKING = 1

3. 重写多线程的类：

class SpiderThread(Thread):
 def __init__(self, spider, tasks):
  super().__init__(daemon=True)
  self.spider = spider
  self.tasks = tasks
 def run(self):
  while True:
   pass

4. 现在爬虫的基本结构已经做完了，在main函数创建tasks， Queue需要从queue里面导入：

def main():
 # list没有锁，所以使用Queue比较安全, task_queue=[]也可以使用,Queue 是先进先出结构, 即 FIFO
 task_queue = Queue()
 # 往队列放种子url, 即搜狐手机端的url
 task_queue.put('http://m.sohu,com/')
 # 指定起多少个线程
 spider_threads = [SpiderThread(Spider(), task_queue) for _ in range(10)]
 for spider_thread in spider_threads:
  spider_thread.start()
 # 控制主线程不能停下,如果队列里有东西，任务不能停, 或者spider处于工作状态，也不能停
 while task_queue.empty() or is_any_alive(spider_threads):
  pass
 print('Over')

4-1. 而 is_any_threads则是判断线程里是否有spider还活着，所以我们再写一个函数来封装一下:

def is_any_alive(spider_threads):
 return any([spider_thread.spider.status == SpiderStatus.WORKING
    for spider_thread in spider_threads])

5. 所有的结构已经全部写完，接下来就是可以填补爬虫部分的代码，在SpiderThread(Thread)里面，开始写爬虫运行 run 的方法，即线程起来后，要做的事情：

def run(self):
  while True:
   # 获取url
   current_url = self.tasks_queue.get()
   visited_urls.add(current_url)
   # 把爬虫的status改成working
   self.spider.status = SpiderStatus.WORKING
   # 获取页面
   html_page = self.spider.fetch(current_url)
   # 判断页面是否为空
   if html_page not in [None, '']:
    # 去解析这个页面, 拿到列表
    url_links = self.spider.parse(html_page)
    # 把解析完的结构加到 self.tasks_queue里面来
    # 没有一次性添加到队列的方法 用循环添加算求了
    for url_link in url_links:
     self.tasks_queue.put(url_link)
   # 完成任务，状态变回IDLE
   self.spider.status = SpiderStatus.IDLE

6. 现在可以开始写 Spider()这个类里面的四个方法，首先写fetch()抓取页面里面的：

@Retry()
 def fetch(self, current_url, *, charsets=('utf-8', ), user_agent=None, proxies=None):
  thread_name = current_thread().name
  print(f'[{thread_name}]: {current_url}')
  headers = {'user-agent': user_agent} if user_agent else {}
  resp = requests.get(current_url,
       headers=headers, proxies=proxies)
  # 判断状态码，只要200的页面
  return decode_page(resp.content, charsets) \
   if resp.status_code == 200 else None

6-1. decode_page是我们在类的外面封装一个解码的函数：

def decode_page(page_bytes, charsets=('utf-8',)):
 page_html = None
 for charset in charsets:
  try:
   page_html = page_bytes.decode(charset)
   break
  except UnicodeDecodeError:
   pass
   # logging.error('Decode:', error)
 return page_html

6-2. @retry是装饰器，用于重试, 因为需要传参，在这里我们用一个类来包装, 所以最后改成@Retry():

# retry的类，重试次数3次，时间5秒(这样写在装饰器就不用传参数类), 异常
class Retry(object):
 def __init__(self, *, retry_times=3, wait_secs=5, errors=(Exception, )):
  self.retry_times = retry_times
  self.wait_secs = wait_secs
  self.errors = errors
 # call 方法传参
 def __call__(self, fn):
  def wrapper(*args, **kwargs):
   for _ in range(self.retry_times):
    try:
     return fn(*args, **kwargs)
    except self.errors as e:
     # 打日志
     logging.error(e)
     # 最小避让 self.wait_secs 再发起请求(最小避让时间)
     sleep((random() + 1) * self.wait_secs)
   return None
  return wrapper()

7. 接下来写解析页面的方法，即 parse():

# 解析页面
 def parse(self, html_page, *, domain='m.sohu.com'):
  soup = BeautifulSoup(html_page, 'lxml')
  url_links = []
  # 找body的有 href 属性的 a 标签
  for a_tag in soup.body.select('a[href]'):
   # 拿到这个属性
   parser = urlparse(a_tag.attrs['href'])
   netloc = parser.netloc or domain
   scheme = parser.scheme or 'http'
   netloc = parser.netloc or 'm.sohu.com'
   # 只爬取 domain 底下的
   if scheme != 'javascript' and netloc == domain:
    path = parser.path
    query = '?' + parser.query if parser.query else ''
    full_url = f'{scheme}://{netloc}{path}{query}'
    if full_url not in visited_urls:
     url_links.append(full_url)
  return url_links

7-1. 我们需要在SpiderThread()的 run方法里面，在

current_url = self.tasks_queue.get()

下面添加

visited_urls.add(current_url)

在类外面再添加一个

visited_urls = set()去重

8. 现在已经能开始抓取到相应的网址。

python面向对象多线程爬虫爬取搜狐页面的实例代码

总结

以上所述是小编给大家介绍的python面向对象多线程爬虫爬取搜狐页面的实例代码，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持！

python面向对象多线程爬虫爬取搜狐页面的实例代码

- Author -

mrr

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

详细介绍Ruby中的正则表达式

Apr 10 Python

python中如何使用正则表达式的集合字符示例

Oct 09 Python

Python实现的随机森林算法与简单总结

Jan 30 Python

tensorflow 获取变量&打印权值的实例讲解

Jun 14 Python

Python给定一个句子倒序输出单词以及字母的方法

Dec 20 Python

基于腾讯云服务器部署微信小程序后台服务（Python+Django）

May 08 Python

如何在Cloud Studio上执行Python代码？

Aug 09 Python

python urllib爬虫模块使用解析

Sep 05 Python

Python字符串的修改方法实例

Dec 19 Python

Python Websocket服务端通信的使用示例

Feb 25 Python

python pip如何手动安装二进制包

Sep 30 Python

Python列表删除重复元素与图像相似度判断及删除实例代码

May 07 Python

Python中if elif else及缩进的使用简述

May 31 #Python

python基于物品协同过滤算法实现代码

May 31 #Python

python写入并获取剪切板内容的实例

May 31 #Python

python3实现基于用户的协同过滤

May 31 #Python

python控制windows剪贴板,向剪贴板中写入图片的实例

May 31 #Python

python用户评论标签匹配的解决方法

May 31 #Python

python批量查询、汉字去重处理CSV文件

May 31 #Python

You might like

js跳转页面方法实现汇总

2014/02/11 Javascript

JS字符串拼接在ie中都报错的解决方法

2014/03/27 Javascript

jquery常用操作小结

2014/07/21 Javascript

基于javascript实现判断移动终端浏览器版本信息

2014/12/09 Javascript

jquery实现鼠标滑过小图时显示大图的方法

2015/01/14 Javascript

js实现的简单图片浮动效果完整实例

2016/05/10 Javascript

JS模拟的Map类实现方法

2016/06/17 Javascript

简单理解vue中el、template、replace元素

2016/10/27 Javascript

JS 调用微信扫一扫功能

2016/12/22 Javascript

three.js中3D视野的缩放实现代码

2017/11/16 Javascript

jQuery实现定时隐藏对话框的方法分析

2018/02/12 jQuery

javascript中函数的写法实例代码详解

2018/10/28 Javascript

JS中通过url动态获取图片大小的方法小结(两种方法)

2018/10/31 Javascript

bootstrap table实现合并单元格效果

2018/12/24 Javascript

vue实现codemirror代码编辑器中的SQL代码格式化功能

2019/08/27 Javascript

javascript实现简易数码时钟

2020/03/30 Javascript

Python 模板引擎的注入问题分析

2017/01/01 Python

Flask核心机制之上下文源码剖析

2018/12/25 Python

Python爬虫抓取技术的一些经验

2019/07/12 Python

在python中实现求输出1-3+5-7+9-......101的和

2020/04/02 Python

python argparse传入布尔参数false不生效的解决

2020/04/20 Python

Python pip install如何修改默认下载路径

2020/04/29 Python

Django缓存Cache使用详解

2020/11/30 Python

CSS3媒体查询Media Queries基础学习教程

2016/02/29 HTML / CSS

DHC美国官网：日本通信销售第一的化妆品品牌

2017/11/12 全球购物

SkinCeuticals官网：美国药妆品牌

2018/04/19 全球购物

元旦活动感言

2014/03/08 职场文书

聘用意向书范本

2014/04/01 职场文书

三分钟演讲稿范文

2014/04/24 职场文书

房产公证书样本

2015/01/23 职场文书

大学生求职自荐信范文

2015/03/04 职场文书

庆祝教师节活动总结

2015/03/23 职场文书

阿凡达观后感

2015/06/10 职场文书

六一亲子活动感想

2015/08/07 职场文书

2016党员学习《反对自由主义》心得体会

2016/01/22 职场文书

JS + HTML 罗盘式时钟的实现

2021/05/21 Javascript