Python3实现爬虫爬取赶集网列表功能【基于request和BeautifulSoup模块】


Posted in Python onDecember 05, 2018

本文实例讲述了Python3实现爬虫爬取赶集网列表功能。分享给大家供大家参考,具体如下:

python3爬虫之爬取赶集网列表。这几天一直在学习使用python3爬取数据,今天记录一下,代码很简单很容易上手。

首先需要安装python3。如果还没有安装,可参考本站前面关于python3安装与配置相关文章。

首先需要安装request和BeautifulSoup两个模块

request是Python的HTTP网络请求模块,使用Requests可以轻而易举的完成浏览器可有的任何操作

pip install requests

BeautifulSoup是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树

pip install beautifulsoup4

代码:

from urllib import request
from bs4 import BeautifulSoup
#构造头文件,模拟浏览器访问
url="http://xa.ganji.com/meirdjm/o2/"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'}
page = request.Request(url,headers=headers)
# 发送请求,获取内容
page_info = request.urlopen(page).read().decode('utf-8')
# 将获取到的内容转换成BeautifulSoup格式,并将html.parser作为解析器
soup = BeautifulSoup(page_info, 'html.parser')
# 查找所有a标签中class='list-info-title'
titles = soup.find_all('a',class_="list-info-title")
# 打印抓取到的title
for title in titles:
 print(title.string)

结果:

Python3实现爬虫爬取赶集网列表功能【基于request和BeautifulSoup模块】

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
基于python脚本实现软件的注册功能(机器码+注册码机制)
Oct 09 Python
Mac 上切换Python多版本
Jun 17 Python
浅谈Python中range和xrange的区别
Dec 20 Python
将TensorFlow的模型网络导出为单个文件的方法
Apr 23 Python
python快排算法详解
Mar 04 Python
Linux下远程连接Jupyter+pyspark部署教程
Jun 21 Python
Python获取好友地区分布及好友性别分布情况代码详解
Jul 10 Python
python标记语句块使用方法总结
Aug 05 Python
Python 多线程,threading模块,创建子线程的两种方式示例
Sep 29 Python
Python中如何引入第三方模块
May 27 Python
Python读取二进制文件代码方法解析
Jun 22 Python
基于Python实现全自动下载抖音视频
Nov 06 Python
对python opencv 添加文字 cv2.putText 的各参数介绍
Dec 05 #Python
Python寻找两个有序数组的中位数实例详解
Dec 05 #Python
解决Python下imread,imwrite不支持中文的问题
Dec 05 #Python
python批量下载网站马拉松照片的完整步骤
Dec 05 #Python
解决python3中cv2读取中文路径的问题
Dec 05 #Python
利用Python求阴影部分的面积实例代码
Dec 05 #Python
python之cv2与图像的载入、显示和保存实例
Dec 05 #Python
You might like
PHP版自动生成文章摘要
2008/07/23 PHP
PHP-Fcgi下PHP的执行时间设置方法
2013/08/02 PHP
PHP中list()函数用法实例简析
2016/01/08 PHP
PHP常量及变量区别原理详解
2020/08/14 PHP
正则表达式判断是否存在中文和全角字符和判断包含中文字符串长度
2008/09/27 Javascript
JQuery 初体验(建议学习jquery)
2009/04/25 Javascript
js 效率组装字符串 StringBuffer
2009/12/23 Javascript
关于jquery.validate1.9.0前台验证的使用介绍
2013/04/26 Javascript
JS实现定时页面弹出类似QQ新闻的提示框
2013/11/07 Javascript
Jquery获取元素的父容器对象示例代码
2014/02/10 Javascript
gridview生成时如何去掉style属性中的border-collapse
2014/09/30 Javascript
JS简单计算器实例
2015/01/20 Javascript
JavaScript获取表单enctype属性的方法
2015/04/02 Javascript
jQuery拖拽插件gridster使用指南
2015/04/21 Javascript
Javascript实现获取及设置光标位置的方法
2015/07/21 Javascript
Bootstrap每天必学之工具提示(Tooltip)插件
2016/04/26 Javascript
纯js和css完成贪吃蛇小游戏demo
2016/09/01 Javascript
bootstrap导航栏、下拉菜单、表单的简单应用实例解析
2017/01/06 Javascript
浅谈jQuery中的$.extend方法来扩展JSON对象
2017/02/12 Javascript
浅谈angular2的http请求返回结果的subcribe注意事项
2017/03/01 Javascript
使用JS模拟锚点跳转的实例
2018/02/01 Javascript
Vue中computed和watch有哪些区别
2020/12/19 Vue.js
python多重继承新算法C3介绍
2014/09/28 Python
Python实现的下载网页源码功能示例
2017/06/13 Python
python判断输入日期为第几天的实例
2018/11/13 Python
Python OpenCV中的resize()函数的使用
2019/06/20 Python
Python实现的企业粉丝抽奖功能示例
2019/07/26 Python
python实现网站用户名密码自动登录功能
2019/08/09 Python
屏蔽Django admin界面添加按钮的操作
2020/03/11 Python
python3.x中安装web.py步骤方法
2020/06/23 Python
利用CSS3实现开门效果实例源码
2016/08/22 HTML / CSS
体育老师的教学自我评价分享
2013/11/19 职场文书
2014领导班子四风问题查摆思想汇报
2014/09/13 职场文书
农村老人去世追悼词
2015/06/23 职场文书
幼儿园国培研修日志
2015/11/13 职场文书
MySql分区类型及创建分区的方法
2022/04/13 MySQL