编程 Python

python3之微信文章爬虫实例讲解

Posted in Python onJuly 12, 2017

前提：

python3.4

windows

作用：通过搜狗的微信搜索接口http://weixin.sogou.com/来搜索相关微信文章，并将标题及相关链接导入Excel表格中

说明：需xlsxwriter模块，另程序编写时间为2017/7/11，以免之后程序无法使用可能是网站做过相关改变，程序较为简单，除去注释40多行。

正题：

思路：打开初始Url --> 正则获取标题及链接 --> 改变page循环第二步 --> 将得到的标题及链接导入Excel

爬虫的第一步都是先手工操作一遍（闲话）

进入上面提到的网址，如输入:“图片识别”,搜索，网址变为“http://weixin.sogou.com/weixin?type=2&query=%E5%9B%BE%E7%89%87%E8%AF%86%E5%88%AB&ie=utf8&s_from=input&_sug_=n&_sug_type_=1&w=01015002&oq=&ri=4&sourceid=sugg&sut=0&sst0=1499778531195&lkt=0%2C0%2C0&p=40040108”标红为重要参数，type=1时是搜索公众号，暂且不管，query=‘搜索关键词',关键词已经被编码，还有一个隐藏参数page=1

当你跳到第二页时可以看到“http://weixin.sogou.com/weixin?oq=&query=%E5%9B%BE%E7%89%87%E8%AF%86%E5%88%AB&_sug_type_=1&sut=0&lkt=0%2C0%2C0&s_from=input&ri=4&_sug_=n&type=2&sst0=1499778531195&page=2&ie=utf8&p=40040108&dp=1&w=01015002&dr=1”

好了，url可以得到了

url = 'http://weixin.sogou.com/weixin?type=2&query='+search+'&page='+str(page)

search是要搜索的关键词，用quote（）编码即可插入

search = urllib.request.quote(search)

page是用来循环的

for page in range(1,pagenum+1):
 url = 'http://weixin.sogou.com/weixin?type=2&query='+search+'&page='+str(page)

完整的url已经得到了，接下来访问url，获得其中的数据（创建opener对象，添加header（））

import urllib.request
 header = ('User-Agent','Mozilla/5.0')
 opener = urllib.request.build_opener()
 opener.addheaders = [header]
 urllib.request.install_opener(opener)
 data = urllib.request.urlopen(url).read().decode()

得到页面内容，采用正则表达获取相关数据

import re
  finddata = re.compile('<a target="_blank" href="(.*?)" rel="external nofollow" rel="external nofollow" .*?uigs="article_title_.*?">(.*?)</a>').findall(data)
  #finddata = [('',''),('','')]

通过正则获取的数据中存在干扰项（链接:‘amp;'）和无关项（标题：'<em><...><....></em>'）,用replace（）解决

title = title.replace('<em><!--red_beg-->','')
 title = title.replace('<!--red_end--></em>','')
 link = link.replace('amp;','')

将处理后的标题和链接保存在列表中

title_link.append(link)
 title_link.append(title)

如此搜索的标题和链接都得到了，接下来导入Excel

先创建Excel

import xlsxwriter
 workbook = xlsxwriter.Workbook(search+'.xlsx')
 worksheet = workbook.add_worksheet('微信')

将title_link中的数据导入Excel

for i in range(0,len(title_link),2):
  worksheet.write('A'+str(i+1),title_link[i+1])
  worksheet.write('C'+str(i+1),title_link[i])
 workbook.close()

完整代码：

'''
python3.4 + windows
羽凡-2017/7/11-
用于搜索微信文章，保存标题及链接至Excel中
每个页面10秒延迟，防止被限制
import urllib.request,xlsxwriter,re,time
'''
import urllib.request
search = str(input("搜索微信文章："))
pagenum = int(input('搜索页数:'))
import xlsxwriter
workbook = xlsxwriter.Workbook(search+'.xlsx')
search = urllib.request.quote(search)
title_link = []
for page in range(1,pagenum+1):
 url = 'http://weixin.sogou.com/weixin?type=2&query='+search+'&page='+str(page)
 import urllib.request
 header = ('User-Agent','Mozilla/5.0')
 opener = urllib.request.build_opener()
 opener.addheaders = [header]
 urllib.request.install_opener(opener)
 data = urllib.request.urlopen(url).read().decode()
 import re
 finddata = re.compile('<a target="_blank" href="(.*?)" rel="external nofollow" rel="external nofollow" .*?uigs="article_title_.*?">(.*?)</a>').findall(data)
 #finddata = [('',''),('','')]
 for i in range(len(finddata)):
  title = finddata[i][1]
  title = title.replace('<em><!--red_beg-->','')
  title = title.replace('<!--red_end--></em>','')
  try:
   #标题中可能存在引号
   title = title.replace('“','"')
   title = title.replace('”','"')
  except:
   pass
  link = finddata[i][0]
  link = link.replace('amp;','')
  title_link.append(link)
  title_link.append(title)
 print('第'+str(page)+'页')
 import time
 time.sleep(10)
worksheet = workbook.add_worksheet('微信')
worksheet.set_column('A:A',70)
worksheet.set_column('C:C',100)
bold = workbook.add_format({'bold':True})
worksheet.write('A1','标题',bold)
worksheet.write('C1','链接',bold)
for i in range(0,len(title_link),2):
 worksheet.write('A'+str(i+1),title_link[i+1])
 worksheet.write('C'+str(i+1),title_link[i])
workbook.close()
print('导入Excel完毕！')

以上这篇python3之微信文章爬虫实例讲解就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

python3之微信文章爬虫实例讲解

- Author -

jingxian

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python字符串替换示例

Apr 24 Python

Python 时间操作例子和时间格式化参数小结

Apr 24 Python

Python极简代码实现杨辉三角示例代码

Nov 15 Python

windows10下python3.5 pip3安装图文教程

Apr 02 Python

图解Python变量与赋值

Apr 03 Python

python 创建一个空dataframe 然后添加行数据的实例

Jun 07 Python

解决Python 使用h5py加载文件,看不到keys()的问题

Feb 08 Python

Python使用LDAP做用户认证的方法

Jun 20 Python

python单向链表的基本实现与使用方法【定义、遍历、添加、删除、查找等】

Oct 24 Python

python使用正则来处理各种匹配问题

Dec 22 Python

keras CNN卷积核可视化,热度图教程

Jun 22 Python

一篇文章带你搞定Ubuntu中打开Pycharm总是卡顿崩溃

Nov 02 Python

python脚本替换指定行实现步骤

Jul 11 #Python

Python书单不将就

Jul 11 #Python

Python编写一个闹钟功能

Jul 11 #Python

python自定义异常实例详解

Jul 11 #Python

详解python中的文件与目录操作

Jul 11 #Python

python 系统调用的实例详解

Jul 11 #Python

python中matplotlib实现最小二乘法拟合的过程详解

Jul 11 #Python

You might like

利用Ffmpeg获得flv视频缩略图和视频时间的代码

2011/09/15 PHP

PHP函数引用返回的实例详解

2016/09/11 PHP

php array_values 返回数组的所有值详解及实例

2016/11/12 PHP

PHP智能识别收货地址信息实例

2019/01/05 PHP

PHP+jQuery实现即点即改功能示例

2019/02/21 PHP

jQuery JSON的解析方式分享

2011/04/05 Javascript

jQuery简易图片放大特效示例代码

2014/06/09 Javascript

js中数组排序sort方法的原理分析

2014/11/20 Javascript

jQuery中contents()方法用法实例

2015/01/08 Javascript

JS制作手机端自适应缩放显示

2015/06/11 Javascript

完美解决jQuery fancybox ie 无法显示关闭按钮的问题

2016/11/29 Javascript

js获取隐藏元素的宽高

2017/02/24 Javascript

详解JS中遍历语法的比较

2017/04/07 Javascript

JS+HTML+CSS实现轮播效果

2017/11/28 Javascript

python和ruby,我选谁？

2017/09/13 Python

Python学习笔记之pandas索引列、过滤、分组、求和功能示例

2019/06/03 Python

python实现邮件自动发送

2019/08/10 Python

Python3批量移动指定文件到指定文件夹方法示例

2019/09/02 Python

详解opencv中画圆circle函数和椭圆ellipse函数

2019/12/27 Python

Python‘==‘ 及 ‘is‘相关原理解析

2020/09/05 Python

Python __slots__的使用方法

2020/11/15 Python

使用Python快速打开一个百万行级别的超大Excel文件的方法

2021/03/02 Python

美国著名珠宝品牌之一：Jared The Galleria Of Jewelry

2016/10/01 全球购物

澳大利亚人信任的清洁平台，您的私人管家：Jarvis

2020/12/25 全球购物

中科方德软件测试面试题

2016/04/21 面试题

小组口号大全

2014/06/09 职场文书

求职信的正确写法

2014/07/10 职场文书

大学竞选班干部演讲稿

2014/08/21 职场文书

研究生简历自我评价范文

2014/09/13 职场文书

党的群众路线教育实践活动个人对照检查材料（乡镇）

2014/11/05 职场文书

2016年国培心得体会及反思

2016/01/13 职场文书

“爱眼护眼，提前预防近视”倡议书3篇

2019/10/30 职场文书

Python中使用Lambda函数的5种用法

2021/04/01 Python

python中如何对多变量连续赋值

2021/06/03 Python

React中的Context应用场景分析

2021/06/11 Javascript

Dashboard管理Kubernetes集群与API访问配置

2022/04/01 Servers