Python爬虫实现(伪)球迷速成


Posted in Python onJune 10, 2018

Python爬虫实现(伪)球迷速成

还有4天就世界杯了,作为一个资深(伪)球迷,必须要实时关注世界杯相关新闻,了解各个球队动态,这样才能在一堆球迷中如(大)鱼(吹)得(特)水(吹),迎接大家仰慕的目光!

给大家分享一个快速了解相关信息的办法:刷论坛!我们来一起做个虎扑论坛的爬虫吧!

抓包获取虎扑论坛相关帖子内容,逐条显示!

先来观察下网页,打开论坛首页,选择国际足球

Python爬虫实现(伪)球迷速成

然后往下拉,找到世界杯相关内容

Python爬虫实现(伪)球迷速成 

这里就是我们的目标了,所有相关的新闻都会在这里显示,用F12打开“开发者工具”然后往下浏览看看数据包

Python爬虫实现(伪)球迷速成

注意箭头指向的那几个地方!

这就是刚才浏览的新闻所在的json包,来看看具体数据是什么

Python爬虫实现(伪)球迷速成

ok,标题、地址、发布时间包括来源都已经出现了!我们可以直接抓取json数据然后取出相关内容!

再进入具体新闻页面看看

世界杯快到了,看我用Python爬虫实现(伪)球迷速成! 

所有的文本内容,都在<div class="artical-main-content">这个标签下的<p></p>标签内,我们可以用xpath直接取div下的所有文本内容!

这里就不一 一说明了,直接上代码,并录个小的GIF图片给大家看看效果

#Q群542110741
# -*- coding:utf-8 -*-
import requests
from lxml import etree

header = {
  'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:60.0) Gecko/20100101 Firefox/60.0',
  'Host':'soccer.hupu.com',
  'Referer':'https://soccer.hupu.com/'}
i = 0
while 1:
  #构建循环页面翻页
  url = 'https://soccer.hupu.com/home/latest-news?league=世界杯&page='
  i += 1
  #获取json数据,一页20个
  html = requests.get(url+str(i),headers=header).json()['result']
  for info in html:
    time_r = info['time']#发布时间
    title = info['title']#标题
    url_r = info['url']#新闻链接
    origin = info['origin']#来源
    print(title)
    print('发布时间:',time_r,' '*5,'来自:',origin)
    head = header
    head['Host'] = 'voice.hupu.com'#更改header中Host参数
    html_r = requests.get(url_r,headers=head)#获取新闻详情
    html_r.encoding = 'utf-8'#编码格式指定
    #获取div下的所有文本
    datas = etree.HTML(html_r.text).xpath('//div[@class="artical-content-read"]')[0].xpath('string(.)').strip()
    print('\n'+'内容:'+'\n'*2,datas,'\n')
    #可由用户手动退出循环
    if input('任意键继续,“q”退出') in ['q', 'Q']:
      exit()

总结

以上所述是小编给大家介绍的Python爬虫实现(伪)球迷速成,希望对大家有所帮助,如果大家有任何疑问欢迎给我留言,小编会及时回复大家的!

Python 相关文章推荐
linux系统使用python监测系统负载脚本分享
Jan 15 Python
Python中threading模块join函数用法实例分析
Jun 04 Python
python实现爬取千万淘宝商品的方法
Jun 30 Python
基于python实现在excel中读取与生成随机数写入excel中
Jan 04 Python
python爬虫基础教程:requests库(二)代码实例
Apr 09 Python
python爬虫之验证码篇3-滑动验证码识别技术
Apr 11 Python
Python实现html转换为pdf报告(生成pdf报告)功能示例
May 04 Python
Python笔试面试题小结
Sep 07 Python
如何关掉pycharm中的python console(图解)
Oct 31 Python
如何将 awk 脚本移植到 Python
Dec 09 Python
关于python pycharm中输出的内容不全的解决办法
Jan 10 Python
Python爬虫之Selenium实现窗口截图
Dec 04 Python
python利用微信公众号实现报警功能
Jun 10 #Python
Python if语句知识点用法总结
Jun 10 #Python
Python continue继续循环用法总结
Jun 10 #Python
Python求解任意闭区间的所有素数
Jun 10 #Python
Python学习小技巧总结
Jun 10 #Python
python计算两个地址之间的距离方法
Jun 09 #Python
python 对dataframe下面的值进行大规模赋值方法
Jun 09 #Python
You might like
PHP个人网站架设连环讲(二)
2006/10/09 PHP
php模板函数 正则实现代码
2012/10/15 PHP
PHP程序漏洞产生的原因分析与防范方法说明
2014/03/06 PHP
ThinkPHP实现递归无级分类――代码少
2015/07/29 PHP
深入php内核之php in array
2015/11/10 PHP
PHP htmlspecialchars() 函数实例代码及用法大全
2018/09/18 PHP
laravel执行php artisan migrate报错的解决方法
2019/10/09 PHP
Javascript中的默认参数详解
2014/10/22 Javascript
深入探讨javascript中的数据类型
2015/03/04 Javascript
基于bootstrap3和jquery的分页插件
2015/07/31 Javascript
BootStrap中Datetimepicker和uploadify插件应用实例小结
2016/05/26 Javascript
jQuery实现背景弹性滚动的导航效果
2016/06/01 Javascript
微信小程序 HTTPS报错整理常见问题及解决方案
2016/12/14 Javascript
详解nodejs爬虫程序解决gbk等中文编码问题
2017/04/06 NodeJs
分享十三个最佳JavaScript数据网格库
2017/04/07 Javascript
浅谈JsonObject中的key-value数据解析排序问题
2017/12/06 Javascript
jQuery实现表单动态添加数据并提交的方法
2018/07/19 jQuery
浅谈Javascript中的对象和继承
2019/04/19 Javascript
vue路由拦截器和请求拦截器知识点总结
2019/11/08 Javascript
微信小程序实现文件预览
2020/10/22 Javascript
python判断字符串是否包含子字符串的方法
2015/03/24 Python
python通过自定义isnumber函数判断字符串是否为数字的方法
2015/04/23 Python
python递归查询菜单并转换成json实例
2017/03/27 Python
Python中的浮点数原理与运算分析
2017/10/12 Python
pandas.loc 选取指定列进行操作的实例
2018/05/18 Python
python生成九宫格图片
2018/11/19 Python
详解python使用pip安装第三方库(工具包)速度慢、超时、失败的解决方案
2018/12/02 Python
对python过滤器和lambda函数的用法详解
2019/01/21 Python
CSS3中31种选择器使用方法教程
2013/12/05 HTML / CSS
英国和爱尔兰的自炊式豪华度假小屋:Rural Retreats
2018/06/08 全球购物
初中中等生评语
2014/12/29 职场文书
领导工作表现评语
2015/01/04 职场文书
2015新学期开学寄语
2015/02/26 职场文书
《清澈的湖水》教学反思
2016/02/17 职场文书
python使用tkinter实现透明窗体上绘制随机出现的小球(实例代码)
2021/05/17 Python
Ubuntu Server 安装Tomcat并配置systemctl
2022/04/28 Servers