Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】


Posted in Python onDecember 11, 2018

本文实例讲述了Python3实现爬取简书首页文章标题和文章链接的方法。分享给大家供大家参考,具体如下:

from urllib import request
from bs4 import BeautifulSoup #Beautiful Soup是一个可以从HTML或XML文件中提取结构化数据的Python库
#构造头文件,模拟浏览器访问
url="http://www.jianshu.com"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
page = request.Request(url,headers=headers)
page_info = request.urlopen(page).read().decode('utf-8')#打开Url,获取HttpResponse返回对象并读取其ResposneBody
# 将获取到的内容转换成BeautifulSoup格式,并将html.parser作为解析器
soup = BeautifulSoup(page_info, 'html.parser')
# 以格式化的形式打印html
#print(soup.prettify())
titles = soup.find_all('a', 'title')# 查找所有a标签中class='title'的语句
'''''
# 打印查找到的每一个a标签的string和文章链接
  for title in titles:
    print(title.string)
    print("http://www.jianshu.com" + title.get('href'))
'''
#open()是读写文件的函数,with语句会自动close()已打开文件
with open(r"D:\articles.txt","w") as file:    #在磁盘以只写的方式打开/创建一个名为 articles 的txt文件
  for title in titles:
    file.write(title.string+'\n')
    file.write("http://www.jianshu.com" + title.get('href')+'\n\n')

本机测试运行结果如下:

Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Python-嵌套列表list的全面解析
Jun 08 Python
Python正则表达式匹配中文用法示例
Jan 17 Python
Caffe均值文件mean.binaryproto转mean.npy的方法
Jul 09 Python
django之跨表查询及添加记录的示例代码
Oct 16 Python
深入解析Python小白学习【操作列表】
Mar 23 Python
如何通过python画loss曲线的方法
Jun 26 Python
django框架实现模板中获取request 的各种信息示例
Jul 01 Python
浅谈python图片处理Image和skimage的区别
Aug 04 Python
python实现一个点绕另一个点旋转后的坐标
Dec 04 Python
简单介绍django提供的加密算法
Dec 18 Python
python实现扫雷游戏
Mar 03 Python
动态设置django的model field的默认值操作步骤
Mar 30 Python
python绘制散点图并标记序号的方法
Dec 11 #Python
pandas分别写入excel的不同sheet方法
Dec 11 #Python
使用Python横向合并excel文件的实例
Dec 11 #Python
padas 生成excel 增加sheet表的实例
Dec 11 #Python
python合并已经存在的sheet数据到新sheet的方法
Dec 11 #Python
Python 多线程不加锁分块读取文件的方法
Dec 11 #Python
对python读写文件去重、RE、set的使用详解
Dec 11 #Python
You might like
解析php开发中的中文编码问题
2013/08/08 PHP
PHP输入输出流学习笔记
2015/05/12 PHP
PHP实现导出带样式的Excel
2016/08/28 PHP
PHP 8新特性简介
2020/08/18 PHP
编写兼容IE和FireFox的脚本
2009/05/18 Javascript
javascript 写类方式之三
2009/07/05 Javascript
用apply让javascript函数仅执行一次的代码
2010/06/27 Javascript
jquery中ajax调用json数据的使用说明
2011/03/17 Javascript
js使用函数绑定技术改变事件处理程序的作用域
2011/12/26 Javascript
在Iframe中获取父窗口中表单的值(示例代码)
2013/11/22 Javascript
JavaScript数字和字符串转换示例
2014/03/26 Javascript
js进行表单验证实例分析
2015/02/10 Javascript
JavaScript获取服务器时间的方法详解
2016/12/11 Javascript
基于javascript实现的购物商城商品倒计时实例
2016/12/11 Javascript
详解nodejs微信公众号开发——1.接入微信公众号
2017/04/10 NodeJs
Bootstrap datepicker日期选择器插件使用详解
2017/07/26 Javascript
vue基于Element构建自定义树的示例代码
2017/09/19 Javascript
js canvas实现写字动画效果
2018/11/30 Javascript
基于node+websocket+html实现腾讯课堂聊天室聊天功能
2020/03/04 Javascript
vue router-link 默认a标签去除下划线的实现
2020/11/06 Javascript
[01:48]2018DOTA2亚洲邀请赛主赛事第二日五佳镜头 VG完美团战逆转TNC
2018/04/05 DOTA
Python实现Linux的find命令实例分享
2017/06/04 Python
Python3爬虫全国地址信息
2019/01/05 Python
pandas去重复行并分类汇总的实现方法
2019/01/29 Python
python 实现保存最新的三份文件,其余的都删掉
2019/12/22 Python
HTML5 Web Workers之网站也能多线程的实现
2013/04/24 HTML / CSS
澳大利亚家用电器在线商店:Billy Guyatts
2020/05/05 全球购物
哪些情况下不应该使用索引
2015/07/20 面试题
软件测试英文面试题
2012/10/14 面试题
企业党员一句话承诺
2014/05/30 职场文书
二手车交易协议书标准版
2014/11/16 职场文书
2015年预备党员自我评价
2015/03/04 职场文书
2016学习依法治国心得体会
2016/01/15 职场文书
iPhone13将有八大升级
2021/04/15 数码科技
MySQL 分组查询的优化方法
2021/05/12 MySQL
Linux下使用C语言代码搭建一个简单的HTTP服务器
2022/04/13 Servers