Python爬虫实现(伪)球迷速成


Posted in Python onJune 10, 2018

Python爬虫实现(伪)球迷速成

还有4天就世界杯了,作为一个资深(伪)球迷,必须要实时关注世界杯相关新闻,了解各个球队动态,这样才能在一堆球迷中如(大)鱼(吹)得(特)水(吹),迎接大家仰慕的目光!

给大家分享一个快速了解相关信息的办法:刷论坛!我们来一起做个虎扑论坛的爬虫吧!

抓包获取虎扑论坛相关帖子内容,逐条显示!

先来观察下网页,打开论坛首页,选择国际足球

Python爬虫实现(伪)球迷速成

然后往下拉,找到世界杯相关内容

Python爬虫实现(伪)球迷速成 

这里就是我们的目标了,所有相关的新闻都会在这里显示,用F12打开“开发者工具”然后往下浏览看看数据包

Python爬虫实现(伪)球迷速成

注意箭头指向的那几个地方!

这就是刚才浏览的新闻所在的json包,来看看具体数据是什么

Python爬虫实现(伪)球迷速成

ok,标题、地址、发布时间包括来源都已经出现了!我们可以直接抓取json数据然后取出相关内容!

再进入具体新闻页面看看

世界杯快到了,看我用Python爬虫实现(伪)球迷速成! 

所有的文本内容,都在<div class="artical-main-content">这个标签下的<p></p>标签内,我们可以用xpath直接取div下的所有文本内容!

这里就不一 一说明了,直接上代码,并录个小的GIF图片给大家看看效果

#Q群542110741
# -*- coding:utf-8 -*-
import requests
from lxml import etree

header = {
  'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:60.0) Gecko/20100101 Firefox/60.0',
  'Host':'soccer.hupu.com',
  'Referer':'https://soccer.hupu.com/'}
i = 0
while 1:
  #构建循环页面翻页
  url = 'https://soccer.hupu.com/home/latest-news?league=世界杯&page='
  i += 1
  #获取json数据,一页20个
  html = requests.get(url+str(i),headers=header).json()['result']
  for info in html:
    time_r = info['time']#发布时间
    title = info['title']#标题
    url_r = info['url']#新闻链接
    origin = info['origin']#来源
    print(title)
    print('发布时间:',time_r,' '*5,'来自:',origin)
    head = header
    head['Host'] = 'voice.hupu.com'#更改header中Host参数
    html_r = requests.get(url_r,headers=head)#获取新闻详情
    html_r.encoding = 'utf-8'#编码格式指定
    #获取div下的所有文本
    datas = etree.HTML(html_r.text).xpath('//div[@class="artical-content-read"]')[0].xpath('string(.)').strip()
    print('\n'+'内容:'+'\n'*2,datas,'\n')
    #可由用户手动退出循环
    if input('任意键继续,“q”退出') in ['q', 'Q']:
      exit()

总结

以上所述是小编给大家介绍的Python爬虫实现(伪)球迷速成,希望对大家有所帮助,如果大家有任何疑问欢迎给我留言,小编会及时回复大家的!

Python 相关文章推荐
hmac模块生成加入了密钥的消息摘要详解
Jan 11 Python
Python基于分析Ajax请求实现抓取今日头条街拍图集功能示例
Jul 19 Python
python使用wxpy轻松实现微信防撤回的方法
Feb 21 Python
安装docker-compose的两种最简方法
Jul 30 Python
python opencv将表格图片按照表格框线分割和识别
Oct 30 Python
pytorch 利用lstm做mnist手写数字识别分类的实例
Jan 10 Python
python argparse传入布尔参数false不生效的解决
Apr 20 Python
详解python中groupby函数通俗易懂
May 14 Python
Python根据指定文件生成XML的方法
Jun 29 Python
详解pytorch中squeeze()和unsqueeze()函数介绍
Sep 03 Python
python机器学习实现oneR算法(以鸢尾data为例)
Mar 03 Python
使用Python拟合函数曲线
Apr 14 Python
python利用微信公众号实现报警功能
Jun 10 #Python
Python if语句知识点用法总结
Jun 10 #Python
Python continue继续循环用法总结
Jun 10 #Python
Python求解任意闭区间的所有素数
Jun 10 #Python
Python学习小技巧总结
Jun 10 #Python
python计算两个地址之间的距离方法
Jun 09 #Python
python 对dataframe下面的值进行大规模赋值方法
Jun 09 #Python
You might like
php提示Call-time pass-by-reference has been deprecated in的解决方法[已测]
2012/05/06 PHP
浅析PHP中Collection 类的设计
2013/06/21 PHP
ThinkPHP有变量的where条件分页实例
2014/11/03 PHP
php通过array_merge()函数合并关联和非关联数组的方法
2015/03/18 PHP
浅谈PHP各环境下的伪静态配置
2019/03/13 PHP
JavaScript 设计模式之组合模式解析
2010/04/09 Javascript
jQuery/CSS3图片特效插件整理推荐
2014/12/07 Javascript
BootStrap响应式导航条实例介绍
2016/05/06 Javascript
详解JavaScript设计模式开发中的桥接模式使用
2016/05/18 Javascript
el表达式 写入bootstrap表格数据页面的实例代码
2017/01/11 Javascript
JavaScript Uploadify文件上传实例
2017/02/28 Javascript
angular bootstrap timepicker TypeError提示怎么办
2017/06/13 Javascript
bootstrap table实现双击可编辑、添加、删除行功能
2017/09/27 Javascript
详解Vue快速零配置的打包工具——parcel
2018/01/16 Javascript
vue translate peoject实现在线翻译功能【新手必看】
2018/06/07 Javascript
Node.js中的cluster模块深入解读
2018/06/11 Javascript
解决ele ui 表格表头太长问题的实现
2019/11/13 Javascript
js实现幻灯片轮播图
2020/08/14 Javascript
OpenLayer3自定义测量控件MeasureTool
2020/09/28 Javascript
通过实例解析javascript Date对象属性及方法
2020/11/04 Javascript
Python中使用第三方库xlrd来读取Excel示例
2015/04/05 Python
python编程开发之类型转换convert实例分析
2015/11/13 Python
Python进阶_关于命名空间与作用域(详解)
2017/05/29 Python
Python使用smtp和pop简单收发邮件完整实例
2018/01/09 Python
python3+PyQt5实现自定义窗口部件Counters
2018/04/20 Python
配置 Pycharm 默认 Test runner 的图文教程
2018/11/30 Python
python Tensor和Array对比分析
2020/01/08 Python
Mytheresa美国官网:德国知名的女性奢侈品电商
2017/05/27 全球购物
NARS化妆品官方商店:美国彩妆品牌
2017/08/26 全球购物
String s = new String(“xyz”);创建了几个String Object?
2015/08/05 面试题
庆七一活动方案
2014/01/25 职场文书
班干部竞选演讲稿
2014/04/24 职场文书
建筑学专业自荐书
2014/07/09 职场文书
四查四看整改措施
2014/09/19 职场文书
民主生活会汇报材料
2014/12/15 职场文书
入党现实表现材料
2014/12/23 职场文书