Python3实现爬虫爬取赶集网列表功能【基于request和BeautifulSoup模块】


Posted in Python onDecember 05, 2018

本文实例讲述了Python3实现爬虫爬取赶集网列表功能。分享给大家供大家参考,具体如下:

python3爬虫之爬取赶集网列表。这几天一直在学习使用python3爬取数据,今天记录一下,代码很简单很容易上手。

首先需要安装python3。如果还没有安装,可参考本站前面关于python3安装与配置相关文章。

首先需要安装request和BeautifulSoup两个模块

request是Python的HTTP网络请求模块,使用Requests可以轻而易举的完成浏览器可有的任何操作

pip install requests

BeautifulSoup是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树

pip install beautifulsoup4

代码:

from urllib import request
from bs4 import BeautifulSoup
#构造头文件,模拟浏览器访问
url="http://xa.ganji.com/meirdjm/o2/"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'}
page = request.Request(url,headers=headers)
# 发送请求,获取内容
page_info = request.urlopen(page).read().decode('utf-8')
# 将获取到的内容转换成BeautifulSoup格式,并将html.parser作为解析器
soup = BeautifulSoup(page_info, 'html.parser')
# 查找所有a标签中class='list-info-title'
titles = soup.find_all('a',class_="list-info-title")
# 打印抓取到的title
for title in titles:
 print(title.string)

结果:

Python3实现爬虫爬取赶集网列表功能【基于request和BeautifulSoup模块】

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
python连接远程ftp服务器并列出目录下文件的方法
Apr 01 Python
详解在Python程序中自定义异常的方法
Oct 16 Python
python shell根据ip获取主机名代码示例
Nov 25 Python
Python爬虫包BeautifulSoup学习实例(五)
Jun 17 Python
Python常见内置高效率函数用法示例
Jul 31 Python
Numpy 改变数组维度的几种方法小结
Aug 02 Python
解决python flask中config配置管理的问题
Jul 26 Python
Python实现动态给类和对象添加属性和方法操作示例
Feb 29 Python
Pycharm连接远程服务器过程图解
Apr 30 Python
Python基于pillow库实现生成图片水印
Sep 14 Python
GitHub上值得推荐的8个python 项目
Oct 30 Python
基于python模拟bfs和dfs代码实例
Nov 19 Python
对python opencv 添加文字 cv2.putText 的各参数介绍
Dec 05 #Python
Python寻找两个有序数组的中位数实例详解
Dec 05 #Python
解决Python下imread,imwrite不支持中文的问题
Dec 05 #Python
python批量下载网站马拉松照片的完整步骤
Dec 05 #Python
解决python3中cv2读取中文路径的问题
Dec 05 #Python
利用Python求阴影部分的面积实例代码
Dec 05 #Python
python之cv2与图像的载入、显示和保存实例
Dec 05 #Python
You might like
php.ini 配置文件的深入解析
2013/06/17 PHP
php curl获取网页内容(IPV6下超时)的解决办法
2013/07/16 PHP
php实现建立多层级目录的方法
2014/07/19 PHP
PHP利用MySQL保存session的实现思路及示例代码
2014/09/09 PHP
php判断文件夹是否存在不存在则创建
2015/04/09 PHP
php简单socket服务器客户端代码实例
2015/05/18 PHP
WordPress中编写自定义存储字段的相关PHP函数解析
2015/12/25 PHP
CodeIgniter集成smarty的方法详解
2016/05/26 PHP
php利用array_search与array_column实现二维数组查找
2019/07/08 PHP
php 使用expat方式解析xml文件操作示例
2019/11/26 PHP
jQuery的初始化与对象构建之浅析
2011/04/12 Javascript
javascript setinterval 的正确语法如何书写
2014/06/17 Javascript
Javascript实现禁止输入中文或英文的例子
2014/12/09 Javascript
JavaScript数据结构与算法之栈与队列
2016/01/29 Javascript
浅谈jquery.form.js的ajaxSubmit和ajaxForm的使用
2016/09/09 Javascript
Angular2搜索和重置按钮过场动画
2017/05/24 Javascript
mac上配置Android环境变量的方法
2018/07/08 Javascript
Node.js EventEmmitter事件监听器用法实例分析
2019/01/07 Javascript
vue 集成jTopo 处理方法
2019/08/07 Javascript
JavaScript数组排序功能简单实现
2020/05/14 Javascript
解决element-ui的下拉框有值却无法选中的情况
2020/11/07 Javascript
js中延迟加载和预加载的具体使用
2021/01/14 Javascript
[03:56]显微镜下的DOTA2第十一期——鬼畜的死亡先知播音员
2014/06/23 DOTA
详解Python之数据序列化(json、pickle、shelve)
2017/03/30 Python
利用Python查看目录中的文件示例详解
2017/08/28 Python
Python实现合并同一个文件夹下所有PDF文件的方法示例
2018/04/28 Python
python2 与 python3 实现共存的方法
2018/07/12 Python
python3.6使用pickle序列化class的方法
2018/10/22 Python
Python decorator拦截器代码实例解析
2020/04/04 Python
Python自动化操作实现图例绘制
2020/07/09 Python
会计主管岗位职责
2014/01/03 职场文书
留学推荐信怎么写
2014/01/25 职场文书
小学二年级学生评语
2014/04/21 职场文书
财政局个人总结
2015/03/04 职场文书
MySQL sql_mode修改不生效的原因及解决
2021/05/07 MySQL
详解Flutter和Dart取消Future的三种方法
2022/04/07 Java/Android