Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】


Posted in Python onDecember 11, 2018

本文实例讲述了Python3实现爬取简书首页文章标题和文章链接的方法。分享给大家供大家参考,具体如下:

from urllib import request
from bs4 import BeautifulSoup #Beautiful Soup是一个可以从HTML或XML文件中提取结构化数据的Python库
#构造头文件,模拟浏览器访问
url="http://www.jianshu.com"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
page = request.Request(url,headers=headers)
page_info = request.urlopen(page).read().decode('utf-8')#打开Url,获取HttpResponse返回对象并读取其ResposneBody
# 将获取到的内容转换成BeautifulSoup格式,并将html.parser作为解析器
soup = BeautifulSoup(page_info, 'html.parser')
# 以格式化的形式打印html
#print(soup.prettify())
titles = soup.find_all('a', 'title')# 查找所有a标签中class='title'的语句
'''''
# 打印查找到的每一个a标签的string和文章链接
  for title in titles:
    print(title.string)
    print("http://www.jianshu.com" + title.get('href'))
'''
#open()是读写文件的函数,with语句会自动close()已打开文件
with open(r"D:\articles.txt","w") as file:    #在磁盘以只写的方式打开/创建一个名为 articles 的txt文件
  for title in titles:
    file.write(title.string+'\n')
    file.write("http://www.jianshu.com" + title.get('href')+'\n\n')

本机测试运行结果如下:

Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
python打开url并按指定块读取网页内容的方法
Apr 29 Python
python自定义解析简单xml格式文件的方法
May 11 Python
构建Python包的五个简单准则简介
Jun 15 Python
python在控制台输出进度条的方法
Jun 20 Python
python字符串过滤性能比较5种方法
Jun 22 Python
Python3中正则模块re.compile、re.match及re.search函数用法详解
Jun 11 Python
Python处理时间日期坐标轴过程详解
Jun 25 Python
Django model update的多种用法介绍
Mar 28 Python
将tensorflow模型打包成PB文件及PB文件读取方式
Jan 23 Python
django2.2 和 PyMySQL版本兼容问题
Feb 17 Python
Python List remove()实例用法详解
Aug 02 Python
Python编程源码报错解决方法总结经验分享
Oct 05 Python
python绘制散点图并标记序号的方法
Dec 11 #Python
pandas分别写入excel的不同sheet方法
Dec 11 #Python
使用Python横向合并excel文件的实例
Dec 11 #Python
padas 生成excel 增加sheet表的实例
Dec 11 #Python
python合并已经存在的sheet数据到新sheet的方法
Dec 11 #Python
Python 多线程不加锁分块读取文件的方法
Dec 11 #Python
对python读写文件去重、RE、set的使用详解
Dec 11 #Python
You might like
PHP无刷新上传文件实现代码
2011/09/19 PHP
PHP启动windows应用程序、执行bat批处理、执行cmd命令的方法(exec、system函数详解)
2014/10/20 PHP
VPS中使用LNMP安装WordPress教程
2014/12/28 PHP
Thinkphp连表查询及数据导出方法示例
2016/10/15 PHP
PHP开发的文字水印,缩略图,图片水印实现类与用法示例
2019/04/12 PHP
浅谈js中的三种继承方式及其优缺点
2016/08/10 Javascript
微信小程序 教程之WXML
2016/10/18 Javascript
微信公众号-获取用户信息(网页授权获取)实现步骤
2016/10/21 Javascript
根据Bootstrap Paginator改写的js分页插件
2016/12/25 Javascript
react.js 翻页插件实例代码
2017/01/19 Javascript
Bootstrap Table使用整理(四)之工具栏
2017/06/09 Javascript
ES6 Array常用扩展的应用实例分析
2019/06/26 Javascript
jQuery实现input[type=file]多图预览上传删除等功能
2019/08/02 jQuery
VUE DEMO之模拟登录个人中心页面之间数据传值实例
2019/10/31 Javascript
手把手教您实现react异步加载高阶组件
2020/04/07 Javascript
Python导出DBF文件到Excel的方法
2015/07/25 Python
Python语言描述随机梯度下降法
2018/01/04 Python
matplotlib调整子图间距,调整整体空白的方法
2018/08/03 Python
深入浅析python 协程与go协程的区别
2019/05/09 Python
用HTML5制作一个简单的桌球游戏的教程
2015/05/12 HTML / CSS
Myprotein意大利官网:欧洲第一运动营养品牌
2018/11/22 全球购物
英国手机零售商:Metrofone
2019/03/18 全球购物
美国眼镜在线零售商:Dualens
2019/12/07 全球购物
外贸业务员岗位职责
2013/11/24 职场文书
职务聘任书范文
2014/03/29 职场文书
明信片寄语大全
2014/04/08 职场文书
财务科长个人对照检查材料
2014/09/18 职场文书
班子查摆四风个人对照检查材料思想汇报
2014/10/04 职场文书
老兵退伍标语
2014/10/07 职场文书
2014年统战工作总结
2014/12/09 职场文书
父亲婚礼答谢词
2015/01/04 职场文书
战友聚会致辞
2015/07/28 职场文书
2016教师学习党章心得体会
2016/01/15 职场文书
go语言使用Casbin实现角色的权限控制
2021/06/26 Golang
使用 Apache Superset 可视化 ClickHouse 数据的两种方法
2021/07/07 Servers
SQL实现LeetCode(196.删除重复邮箱)
2021/08/07 MySQL