Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】


Posted in Python onDecember 11, 2018

本文实例讲述了Python3实现爬取简书首页文章标题和文章链接的方法。分享给大家供大家参考,具体如下:

from urllib import request
from bs4 import BeautifulSoup #Beautiful Soup是一个可以从HTML或XML文件中提取结构化数据的Python库
#构造头文件,模拟浏览器访问
url="http://www.jianshu.com"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
page = request.Request(url,headers=headers)
page_info = request.urlopen(page).read().decode('utf-8')#打开Url,获取HttpResponse返回对象并读取其ResposneBody
# 将获取到的内容转换成BeautifulSoup格式,并将html.parser作为解析器
soup = BeautifulSoup(page_info, 'html.parser')
# 以格式化的形式打印html
#print(soup.prettify())
titles = soup.find_all('a', 'title')# 查找所有a标签中class='title'的语句
'''''
# 打印查找到的每一个a标签的string和文章链接
  for title in titles:
    print(title.string)
    print("http://www.jianshu.com" + title.get('href'))
'''
#open()是读写文件的函数,with语句会自动close()已打开文件
with open(r"D:\articles.txt","w") as file:    #在磁盘以只写的方式打开/创建一个名为 articles 的txt文件
  for title in titles:
    file.write(title.string+'\n')
    file.write("http://www.jianshu.com" + title.get('href')+'\n\n')

本机测试运行结果如下:

Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
python实现rest请求api示例
Apr 22 Python
python中元类用法实例
Oct 10 Python
python抓取百度首页的方法
May 19 Python
Python正则表达式常用函数总结
Jun 24 Python
python操作excel文件并输出txt文件的实例
Jul 10 Python
在python环境下运用kafka对数据进行实时传输的方法
Dec 27 Python
python从子线程中获得返回值的方法
Jan 30 Python
python中如何使用分步式进程计算详解
Mar 22 Python
PyCharm 配置远程python解释器和在本地修改服务器代码
Jul 23 Python
详解如何用python实现一个简单下载器的服务端和客户端
Oct 28 Python
python中把元组转换为namedtuple方法
Dec 09 Python
Python自动化测试PO模型封装过程详解
Jun 22 Python
python绘制散点图并标记序号的方法
Dec 11 #Python
pandas分别写入excel的不同sheet方法
Dec 11 #Python
使用Python横向合并excel文件的实例
Dec 11 #Python
padas 生成excel 增加sheet表的实例
Dec 11 #Python
python合并已经存在的sheet数据到新sheet的方法
Dec 11 #Python
Python 多线程不加锁分块读取文件的方法
Dec 11 #Python
对python读写文件去重、RE、set的使用详解
Dec 11 #Python
You might like
require(),include(),require_once()和include_once()区别
2008/03/27 PHP
PHP反射类ReflectionClass和ReflectionObject的使用方法
2013/11/13 PHP
php中的strpos使用示例
2014/02/27 PHP
PHP中的一些常用函数收集
2015/05/26 PHP
js移除事件 js绑定事件实例应用
2012/11/28 Javascript
JavaScript设置IFrame高度自适应(兼容各主流浏览器)
2013/06/05 Javascript
Jquery获取元素的父容器对象示例代码
2014/02/10 Javascript
js控制元素显示在屏幕固定位置及监听屏幕高度变化的方法
2015/08/11 Javascript
JavaScript判断表单为空及获取焦点的方法
2016/02/12 Javascript
基于Bootstrap仿淘宝分页控件实现代码
2016/11/07 Javascript
清除浏览器缓存的几种方法总结(必看)
2016/12/09 Javascript
使用vue实现点击按钮滑出面板的实现代码
2017/01/10 Javascript
微信小程序 支付功能实现PHP实例详解
2017/05/12 Javascript
浅谈jQuery框架Ajax常用选项
2017/07/08 jQuery
JS去掉字符串中所有的逗号
2017/10/18 Javascript
Angular浏览器插件Batarang介绍及使用
2018/02/07 Javascript
layer插件select选中默认值的方法
2018/08/14 Javascript
Vue.js构建你的第一个包并在NPM上发布的方法步骤
2019/05/01 Javascript
优雅的处理vue项目异常实战记录
2019/06/05 Javascript
让 babel webpack vue 配置文件支持智能提示的方法
2019/06/22 Javascript
JS面向对象编程实现的拖拽功能案例详解
2020/03/03 Javascript
JS Web Flex弹性盒子模型代码实例
2020/03/10 Javascript
javascript递归函数定义和用法示例分析
2020/07/22 Javascript
vue用ant design中table表格,点击某行时触发的事件操作
2020/10/28 Javascript
关于Python中异常(Exception)的汇总
2017/01/18 Python
python3.5 tkinter实现页面跳转
2018/01/30 Python
Django Admin后台添加数据库视图过程解析
2020/04/01 Python
Python图像处理之膨胀与腐蚀的操作
2021/02/07 Python
班级文化标语
2014/06/23 职场文书
爱的奉献演讲稿
2014/09/10 职场文书
我为党旗添光彩演讲稿
2014/09/10 职场文书
无财产无子女离婚协议书范文
2014/09/14 职场文书
二年级上册数学教学计划
2015/01/20 职场文书
2015年国庆节演讲稿范文
2015/07/30 职场文书
Oracle11g r2 卸载干净重装的详细教程(亲测有效已重装过)
2021/06/04 Oracle
帮你提高开发效率的JavaScript20个技巧
2021/06/18 Javascript