python爬虫获取新浪新闻教学


Posted in Python onDecember 23, 2018

一提到python,大家经常会提到爬虫,爬虫近来兴起的原因我觉得主要还是因为大数据的原因,大数据导致了我们的数据不在只存在于自己的服务器,而python语言的简便也成了爬虫工具的首要语言,我们这篇文章来讲下爬虫,爬取新浪新闻

1、

大家知道,爬虫实际上就是模拟浏览器请求,然后把请求到的数据,经过我们的分析,提取出我们想要的内容,这也就是爬虫的实现
大家知道,爬虫实际上就是模拟浏览器请求,然后把请求到的数据,经过我们的分析,提取出我们想要的内容,这也就是爬虫的实现

2、首先,我们要写爬虫,可以借鉴一些工具,我们先从简单的入门,首先说到请求,我们就会想到python中,非常好用的requests,然后说到分析解析就会用到bs4,然后我们可以直接用pip命令来实现安装,假如安装的是python3,也可以用pip3

python爬虫获取新浪新闻教学

3、安装好这两个类库之后,然后我们就可以先请求数据,查看下新闻的内容,这个时候我们有可能看到的是乱码

python爬虫获取新浪新闻教学

4、怎么处理乱码呢?我们可以拿浏览器打开网页,右键查看网页源代码,我们可以看到编码格式为utf-8

python爬虫获取新浪新闻教学

python爬虫获取新浪新闻教学

5、然后我们在输出的时候添加编码格式,就可以查看到正确编码的数据了

python爬虫获取新浪新闻教学

6、拿到数据之后,我们需要先分析数据,看我们想要的数据在哪里,我们打开浏览器,右键审查,然后按示例图操作,就可以看到我们新闻所在的标签,假如是windows系统,选择开发中工具里面一样

python爬虫获取新浪新闻教学

python爬虫获取新浪新闻教学

7、我们知道属于哪个标签之后,就是用bs4来解析拿到我们想要的数据了

python爬虫获取新浪新闻教学

8、我们想要拿到新闻的具体标题,时间,地址,就需要我们在对元素进行深入的解析,我们还是按之前的方法,找到标题所在的标签

python爬虫获取新浪新闻教学

9、然后我们编写标题时间地址的python程序,就可以爬取出对应的标题内容,时间和地址

python爬虫获取新浪新闻教学

10、

简单的python爬取新闻就讲到这里啦

 总结:以上就是关于Python爬虫获取新浪新闻内容的步骤,感谢大家的的阅读和对三水点靠木的支持。

Python 相关文章推荐
Python中使用scapy模拟数据包实现arp攻击、dns放大攻击例子
Oct 23 Python
Python3写入文件常用方法实例分析
May 22 Python
Python的Django中将文件上传至七牛云存储的代码分享
Jun 03 Python
python使用threading获取线程函数返回值的实现方法
Nov 15 Python
Python实现比较扑克牌大小程序代码示例
Dec 06 Python
Django实现文件上传下载功能
Oct 06 Python
Django框架HttpResponse对象用法实例分析
Nov 01 Python
Python动态声明变量赋值代码实例
Dec 30 Python
django下创建多个app并设置urls方法
Aug 02 Python
python 如何使用find和find_all爬虫、找文本的实现
Oct 16 Python
Python3+Flask安装使用教程详解
Feb 16 Python
python 算法题——快乐数的多种解法
May 27 Python
Python爬虫文件下载图文教程
Dec 23 #Python
python爬虫获取百度首页内容教学
Dec 23 #Python
Python爬虫设置代理IP(图文)
Dec 23 #Python
celery4+django2定时任务的实现代码
Dec 23 #Python
python3使用pandas获取股票数据的方法
Dec 22 #Python
Python实现将通信达.day文件读取为DataFrame
Dec 22 #Python
python3 cvs将数据读取为字典的方法
Dec 22 #Python
You might like
php中sprintf与printf函数用法区别解析
2014/02/17 PHP
php+xml实现在线英文词典查询的方法
2015/01/23 PHP
阿里云Win2016安装Apache和PHP环境图文教程
2018/03/11 PHP
PHP基于session.upload_progress 实现文件上传进度显示功能详解
2019/08/09 PHP
PHP生成随机字符串实例代码(字母+数字)
2019/09/11 PHP
firefox和IE系列的相关区别整理 以备后用
2009/12/28 Javascript
Javascript学习笔记5 类和对象
2010/01/11 Javascript
jquery图片不完全按比例自动缩小的简单代码
2013/07/29 Javascript
jQuery简单实现QQ空间点赞已经取消点赞
2015/04/02 Javascript
浅析四种常见的Javascript声明循环变量的书写方式
2015/10/14 Javascript
JS实现浏览器状态栏文字从右向左弹出效果代码
2015/10/27 Javascript
jQuery链式调用与show知识浅析
2016/05/11 Javascript
详解JavaScript树结构
2017/01/09 Javascript
微信小程序 sha1 实现密码加密实例详解
2017/07/06 Javascript
详解JavaScript中关于this指向的4种情况
2019/04/18 Javascript
Vue中使用matomo进行访问流量统计的实现
2019/11/05 Javascript
Python中使用Boolean操作符做真值测试实例
2015/01/30 Python
Python实现的多线程http压力测试代码
2017/02/08 Python
Python中动态检测编码chardet的使用教程
2017/07/06 Python
python3 pillow生成简单验证码图片的示例
2017/09/19 Python
Python二叉树的定义及常用遍历算法分析
2017/11/24 Python
Python利用ORM控制MongoDB(MongoEngine)的步骤全纪录
2018/09/13 Python
Tesserocr库的正确安装方式
2018/10/19 Python
详解Python是如何实现issubclass的
2019/07/24 Python
Python 使用 docopt 解析json参数文件过程讲解
2019/08/13 Python
Python学习笔记之集合的概念和简单使用示例
2019/08/22 Python
使用批处理脚本自动生成并上传NuGet包(操作方法)
2019/11/19 Python
django有哪些好处和优点
2020/09/01 Python
详解移动端HTML5音频与视频问题及解决方案
2018/08/22 HTML / CSS
美国卡车、吉普车和SUV零件网站:4 Wheel Parts
2016/11/24 全球购物
应届生求职推荐信
2013/10/28 职场文书
写好自荐信需做到的5要点
2014/03/07 职场文书
学校创先争优活动总结
2014/08/28 职场文书
大学教师个人总结
2015/02/10 职场文书
Java面试题冲刺第十七天--基础篇3
2021/08/07 面试题
Win11如何查看显卡型号 Win11查看显卡型号的方法
2022/08/14 数码科技