python爬虫获取新浪新闻教学


Posted in Python onDecember 23, 2018

一提到python,大家经常会提到爬虫,爬虫近来兴起的原因我觉得主要还是因为大数据的原因,大数据导致了我们的数据不在只存在于自己的服务器,而python语言的简便也成了爬虫工具的首要语言,我们这篇文章来讲下爬虫,爬取新浪新闻

1、

大家知道,爬虫实际上就是模拟浏览器请求,然后把请求到的数据,经过我们的分析,提取出我们想要的内容,这也就是爬虫的实现
大家知道,爬虫实际上就是模拟浏览器请求,然后把请求到的数据,经过我们的分析,提取出我们想要的内容,这也就是爬虫的实现

2、首先,我们要写爬虫,可以借鉴一些工具,我们先从简单的入门,首先说到请求,我们就会想到python中,非常好用的requests,然后说到分析解析就会用到bs4,然后我们可以直接用pip命令来实现安装,假如安装的是python3,也可以用pip3

python爬虫获取新浪新闻教学

3、安装好这两个类库之后,然后我们就可以先请求数据,查看下新闻的内容,这个时候我们有可能看到的是乱码

python爬虫获取新浪新闻教学

4、怎么处理乱码呢?我们可以拿浏览器打开网页,右键查看网页源代码,我们可以看到编码格式为utf-8

python爬虫获取新浪新闻教学

python爬虫获取新浪新闻教学

5、然后我们在输出的时候添加编码格式,就可以查看到正确编码的数据了

python爬虫获取新浪新闻教学

6、拿到数据之后,我们需要先分析数据,看我们想要的数据在哪里,我们打开浏览器,右键审查,然后按示例图操作,就可以看到我们新闻所在的标签,假如是windows系统,选择开发中工具里面一样

python爬虫获取新浪新闻教学

python爬虫获取新浪新闻教学

7、我们知道属于哪个标签之后,就是用bs4来解析拿到我们想要的数据了

python爬虫获取新浪新闻教学

8、我们想要拿到新闻的具体标题,时间,地址,就需要我们在对元素进行深入的解析,我们还是按之前的方法,找到标题所在的标签

python爬虫获取新浪新闻教学

9、然后我们编写标题时间地址的python程序,就可以爬取出对应的标题内容,时间和地址

python爬虫获取新浪新闻教学

10、

简单的python爬取新闻就讲到这里啦

 总结:以上就是关于Python爬虫获取新浪新闻内容的步骤,感谢大家的的阅读和对三水点靠木的支持。

Python 相关文章推荐
python 循环遍历字典元素的简单方法
Sep 11 Python
Python编程之Re模块下的函数介绍
Oct 28 Python
使用Python通过win32 COM打开Excel并添加Sheet的方法
May 02 Python
基于随机梯度下降的矩阵分解推荐算法(python)
Aug 31 Python
Falsk 与 Django 过滤器的使用与区别详解
Jun 04 Python
在Pycharm中使用GitHub的方法步骤
Jun 13 Python
win10安装tensorflow-gpu1.8.0详细完整步骤
Jan 20 Python
关于Python Tkinter Button控件command传参问题的解决方式
Mar 04 Python
基于python实现地址和经纬度转换
May 19 Python
Python闭包及装饰器运行原理解析
Jun 17 Python
OpenCV 之按位运算举例解析
Jun 19 Python
Python 里最强的地图绘制神器
Mar 01 Python
Python爬虫文件下载图文教程
Dec 23 #Python
python爬虫获取百度首页内容教学
Dec 23 #Python
Python爬虫设置代理IP(图文)
Dec 23 #Python
celery4+django2定时任务的实现代码
Dec 23 #Python
python3使用pandas获取股票数据的方法
Dec 22 #Python
Python实现将通信达.day文件读取为DataFrame
Dec 22 #Python
python3 cvs将数据读取为字典的方法
Dec 22 #Python
You might like
php echo()和print()、require()和include()函数区别说明
2010/03/27 PHP
Zend Framework教程之Zend_Registry对象用法分析
2016/03/22 PHP
Js+Dhtml:WEB程序员简易开发工具包(预先体验版)
2006/11/07 Javascript
Javascript selection的兼容性写法介绍
2013/12/20 Javascript
jQuery的live()方法对hover事件的处理示例
2014/02/27 Javascript
js下将阿拉伯数字每三位一逗号分隔(如:15000000转化为15,000,000)
2014/06/02 Javascript
jquery trigger伪造a标签的click事件取代window.open方法
2014/06/23 Javascript
Javascript学习笔记之函数篇(五) : 构造函数
2014/11/23 Javascript
JavaScript学习笔记之检测客户端类型是(引擎、浏览器、平台、操作系统、移动设备)
2015/12/03 Javascript
jquery ztree异步搜索(搜叶子)实践
2016/02/25 Javascript
微信小程序 网络API Websocket详解
2016/11/09 Javascript
浅谈js停止事件冒泡 阻止浏览器的默认行为(阻止超连接 #)
2017/02/08 Javascript
Javascript网页抢红包外挂实现分享
2018/01/11 Javascript
vue自定义一个v-model的实现代码
2018/06/21 Javascript
自定义Vue组件打包、发布到npm及使用教程
2019/05/22 Javascript
[01:14:30]TNC vs VG 2019国际邀请赛淘汰赛 胜者组赛BO3 第二场 8.20.mp4
2019/08/22 DOTA
举例讲解Python中的list列表数据结构用法
2016/03/12 Python
Python用zip函数同时遍历多个迭代器示例详解
2016/11/14 Python
Python实现打印螺旋矩阵功能的方法
2017/11/21 Python
windows下搭建python scrapy爬虫框架步骤
2018/12/23 Python
Pycharm使用远程linux服务器conda/python环境在本地运行的方法(图解))
2019/12/09 Python
win10系统下python3安装及pip换源和使用教程
2020/01/06 Python
keras小技巧——获取某一个网络层的输出方式
2020/05/23 Python
python 用Matplotlib作图中有多个Y轴
2020/11/28 Python
Jupyter Notebook 安装配置与使用详解
2021/01/06 Python
jupyter notebook更换皮肤主题的实现
2021/01/07 Python
马来西亚最大的电器网站:Senheng
2017/10/13 全球购物
如何反序的迭代一个序列?how do I iterate over a sequence in reverse order
2012/02/04 面试题
会计专业自荐信
2013/12/02 职场文书
小学班主任培训方案
2014/06/04 职场文书
2014年房地产个人工作总结
2014/12/20 职场文书
毕业实习指导教师评语
2014/12/31 职场文书
导游欢送词
2015/01/31 职场文书
表扬信范文
2019/04/22 职场文书
如何用H5实现好玩的2048小游戏
2022/07/23 HTML / CSS
JavaScript实现简单的音乐播放器
2022/08/14 Javascript