编程 Python

python采集微信公众号文章

Posted in Python onDecember 20, 2018

本文实例为大家分享了python采集微信公众号文章的具体代码，供大家参考，具体内容如下

在python一个子目录里存2个文件，分别是：采集公众号文章.py和config.py。代码如下：

1.采集公众号文章.py

from urllib.parse import urlencode
import pymongo
import requests
from lxml.etree import XMLSyntaxError
from requests.exceptions import ConnectionError
from pyquery import PyQuery as pq
from config import *
 
#配置MongoDB
client = pymongo.MongoClient(MONGO_URI)
db = client[MONGO_DB]
 
base_url = 'http://weixin.sogou.com/weixin?'
#添加头文件
headers = {
  'Cookie': 'usid=S-pkM6vW_ac4ktr1; SUV=00A75E9078EFD9F75A6573ECAD0EC883; wuid=AAGCxerSHQAAAAqRGn4SoAgAAAA=; IPLOC=CN4414; SUID=767BEAB73220910A000000005AA9E2AA; pgv_pvi=159197184; pgv_si=s8252565504; ABTEST=0|1521083055|v1; weixinIndexVisited=1; sct=1; JSESSIONID=aaalXqKRP6JjS8ac4Hwhw; ppinf=5|1521083238|1522292838|dHJ1c3Q6MToxfGNsaWVudGlkOjQ6MjAxN3x1bmlxbmFtZTo2OiUzQSUyOXxjcnQ6MTA6MTUyMTA4MzIzOHxyZWZuaWNrOjY6JTNBJTI5fHVzZXJpZDo0NDpvOXQybHVOaExNcS1vLW1zbjMxMmNMSkp4OGpZQHdlaXhpbi5zb2h1LmNvbXw; pprdig=tbVf7qLZdDMjpCn4jTf3dg8C8NeRX-YgDi8KUcezn0rteWuhkgU4xMNaxZbakVQuswboIGl_rD-34abU6VY9Jkv7me3BypigyDnIv2lJUchGCo7Gk58m9Qhrm3Aa7NHLHjFVYoaQkQgBSYKpatxMNPe3Tm57ZDlzdPg_8mBmBNQ; sgid=23-30671195-AVqp42ZctqiaCybbDvvfWno4; PHPSESSID=4jjk2a9rv6kq7m50f42r92u3r3; SUIR=D2DF4E12A5A1C3CE1A8AD7F2A5FE18FE; ppmdig=1521087492000000855f9824f94abe82b25d2839135ad3a8; SNUID=FEF36D3F8882EFEC4FCF61E68801DA49; seccodeRight=success; successCount=1|Thu, 15 Mar 2018 04:23:23 GMT',
  'Host': 'weixin.sogou.com',
  'Referer': 'http://weixin.sogou.com/antispider/?from=%2fweixin%3Fquery%3d%E9%A3%8E%E6%99%AF%26type%3d2%26page%3d95%26ie%3dutf8',
  'Upgrade-Insecure-Requests': '1',
  'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36'
}
#初始化代理为本地IP
proxy = None
 
#定义获取代理函数
def get_proxy():
  try:
    response = requests.get(PROXY_POOL_URL)
    if response.status_code == 200:
      return response.text
    return None
  except ConnectionError:
    return None
 
#添加代理获取网页内容
def get_html(url, count=1):
  print('Crawling', url)
  print('Trying Count', count)
  global proxy
  if count >= MAX_COUNT:
    print('Tried Too Many Counts')
    return None
  try:
    if proxy:
      proxies = {
        'http': 'http://' + proxy
      }
      response = requests.get(url, allow_redirects=False, headers=headers, proxies=proxies)
    else:
      response = requests.get(url, allow_redirects=False, headers=headers)
    if response.status_code == 200:
      return response.text
    if response.status_code == 302:
      # Need Proxy
      print('302')
      proxy = get_proxy()
      if proxy:
        print('Using Proxy', proxy)
        return get_html(url)
      else:
        print('Get Proxy Failed')
        return None
  except ConnectionError as e:
    print('Error Occurred', e.args)
    proxy = get_proxy()
    count += 1
    return get_html(url, count)
 
 
#获取索引页内容
def get_index(keyword, page):
  data = {
    'query': keyword,
    'type': 2,
    'page': page
  }
  queries = urlencode(data)
  url = base_url + queries
  html = get_html(url)
  return html
 
#解析索引页，提取详情页网址
def parse_index(html):
  doc = pq(html)
  items = doc('.news-box .news-list li .txt-box h3 a').items()
  for item in items:
    yield item.attr('href')
 
#获取详情页
def get_detail(url):
  try:
    response = requests.get(url)
    if response.status_code == 200:
      return response.text
    return None
  except ConnectionError:
    return None
 
#解析索引页，返回微信文章标题、内容、日期、公众号名称等
def parse_detail(html):
  try:
    doc = pq(html)
    title = doc('.rich_media_title').text()
    content = doc('.rich_media_content').text()
    date = doc('#post-date').text()
    nickname = doc('#js_profile_qrcode > div > strong').text()
    wechat = doc('#js_profile_qrcode > div > p:nth-child(3) > span').text()
    return {
      'title': title,
      'content': content,
      'date': date,
      'nickname': nickname,
      'wechat': wechat
    }
  except XMLSyntaxError:
    return None
 
#存储到MongoDB，去重操作
def save_to_mongo(data):
  if db['articles'].update({'title': data['title']}, {'$set': data}, True):
    print('Saved to Mongo', data['title'])
  else:
    print('Saved to Mongo Failed', data['title'])
 
#主函数
def main():
  for page in range(1, 101):
    html = get_index(KEYWORD, page)
    if html:
      article_urls = parse_index(html)
      for article_url in article_urls:
        article_html = get_detail(article_url)
        if article_html:
          article_data = parse_detail(article_html)
          print(article_data)
 
 
if __name__ == '__main__':
  main()

2.config.py代码：

#爬取公众号文章
PROXY_POOL_URL = 'http://127.0.0.1:5000/get'
KEYWORD ='计算机等级二级'   # 输入关键词
MONGO_URI = 'localhost' 
MONGO_DB = 'data'
MAX_COUNT = 5

其中，config.py中KEYWORD为查找关键词，可以根据需要更改。经实测，运行"采集公众号文章.py"成功！若因受限不成功，可多运行几次。

python采集微信公众号文章

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

python采集微信公众号文章

- Author -

布衣弓长

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python中获得当前目录和上级目录的实现方法

Oct 12 Python

Python lambda函数基本用法实例分析

Mar 16 Python

django的ORM模型的实现原理

Mar 04 Python

详解python项目实战:模拟登陆CSDN

Apr 04 Python

python下的opencv画矩形和文字注释的实现方法

Jul 09 Python

python从list列表中选出一个数和其对应的坐标方法

Jul 20 Python

浅析Python语言自带的数据结构有哪些

Aug 27 Python

Python如何使用Gitlab API实现批量的合并分支

Nov 27 Python

Django 解决新建表删除后无法重新创建等问题

May 21 Python

python中pandas.read_csv()函数的深入讲解

Mar 29 Python

聊聊Python String型列表求最值的问题

Jan 18 Python

你需要掌握的20个Python常用技巧

Feb 28 Python

Linux下Pycharm、Anaconda环境配置及使用踩坑

Dec 19 #Python

python爬虫之urllib,伪装,超时设置,异常处理的方法

Dec 19 #Python

python3实现网络爬虫之BeautifulSoup使用详解

Dec 19 #Python

python爬虫超时的处理的实例

Dec 19 #Python

pycharm中使用anaconda部署python环境的方法步骤

Dec 19 #Python

Django框架模板注入操作示例【变量传递到模板】

Dec 19 #Python

python json.loads兼容单引号数据的方法

Dec 19 #Python

You might like

实用函数10

2007/11/08 PHP

ThinkPHP实现简单登陆功能

2017/04/28 PHP

thinkphp5.1 文件引入路径问题及注意事项

2018/06/13 PHP

PHP7新增函数

2021/03/09 PHP

浏览器加载、渲染和解析过程黑箱简析

2012/11/29 Javascript

jQuery aminate方法定位到页面具体位置

2013/12/26 Javascript

JS+CSS实现可拖动的弹出提示框

2015/02/16 Javascript

javascript中的作用域和闭包详解

2016/01/13 Javascript

基于Vue.js实现数字拼图游戏

2016/08/02 Javascript

jQuery中delegate()方法的用法详解

2016/10/13 Javascript

JS限定手机版中图片大小随分辨率自动调整的方法

2016/12/05 Javascript

vuejs实现本地数据的筛选分页功能思路详解

2017/11/15 Javascript

chorme 浏览器记住密码后input黄色背景处理方法(两种)

2017/11/22 Javascript

nodejs中Express与Koa2对比分析

2018/02/06 NodeJs

AngularJS中ng-options实现下拉列表的数据绑定方法

2018/08/13 Javascript

Vue项目报错：Uncaught SyntaxError: Unexpected token

2018/11/10 Javascript

2019 年编写现代 JavaScript 代码的5个小技巧(小结)

2019/01/15 Javascript

使用微信SDK自定义分享的方法

2019/07/03 Javascript

ES10的13个新特性示例(小结)

2019/09/23 Javascript

Python的print用法示例

2014/02/11 Python

Python中操作文件之write()方法的使用教程

2015/05/25 Python

python2.7实现爬虫网页数据

2018/05/25 Python

PyCharm使用Docker镜像搭建Python开发环境

2019/12/26 Python

Tensorflow限制CPU个数实例

2020/02/06 Python

Python列表切片常用操作实例解析

2020/03/10 Python

解决Python3.7.0 SSL低版本导致Pip无法使用问题

2020/09/03 Python

苏格兰在线威士忌商店：The Whisky Barrel

2019/05/07 全球购物

中国制造网：Made-in-China.com

2019/10/25 全球购物

哥德堡通行证：Gothenburg Pass

2019/12/09 全球购物

医学院学生的自我评价分享

2013/11/19 职场文书

集体婚礼策划方案

2014/02/22 职场文书

《囚绿记》教学反思

2014/03/01 职场文书

交警个人先进事迹材料

2014/05/11 职场文书

交通事故一次性赔偿协议书范本

2014/11/02 职场文书

java objectUtils 使用可能会出现的问题

2022/02/28 Java/Android

Golang 实现 WebSockets 之创建 WebSockets

2022/04/24 Golang