Python基于BeautifulSoup和requests实现的爬虫功能示例


Posted in Python onAugust 02, 2019

本文实例讲述了Python基于BeautifulSoup和requests实现的爬虫功能。分享给大家供大家参考,具体如下:

爬取的目标网页:http://www.qianlima.com/zb/area_305/

Python基于BeautifulSoup和requests实现的爬虫功能示例

这是一个招投标网站,我们使用python脚本爬取红框中的信息,包括链接网址、链接名称、时间等三项内容。

使用到的Python库:BeautifulSoup、requests

代码如下:

# -*- coding:utf-8 -*-
import requests
from bs4 import BeautifulSoup
url = 'http://www.qianlima.com/zb/area_305/'
user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'
headers = { 'User-Agent' : user_agent}
r = requests.get(url,headers=headers)#连接
content = r.text#获取内容,自动转码unicode
soup = BeautifulSoup(content,"lxml")
tags1 = soup.select('div .shixian_zhaobiao')
tag1 = tags1[0]
tag2 = tag1.find(name = 'dl')
tags2 = tag2.find_all(name = 'a')
tags3 = tag2.find_all(name = 'dd')
for tag in tags2:
 print tag.get('href')
 print tag.string
 print tag.next_element.next_element.string

运行结果如下

Python基于BeautifulSoup和requests实现的爬虫功能示例

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
用Python的pandas框架操作Excel文件中的数据教程
Mar 31 Python
Python中使用asyncio 封装文件读写
Sep 11 Python
关于Python中Inf与Nan的判断问题详解
Feb 08 Python
深入理解Python分布式爬虫原理
Nov 23 Python
基于Python函数的作用域规则和闭包(详解)
Nov 29 Python
Python 普通最小二乘法(OLS)进行多项式拟合的方法
Dec 29 Python
Python closure闭包解释及其注意点详解
Aug 28 Python
Python超越函数积分运算以及绘图实现代码
Nov 20 Python
Python计算不规则图形面积算法实现解析
Nov 22 Python
pycharm激活码有效到2020年11月底
Sep 18 Python
python matplotlib中的subplot函数使用详解
Jan 19 Python
PyCharm2019 安装和配置教程详解附激活码
Jul 31 Python
详解pandas DataFrame的查询方法(loc,iloc,at,iat,ix的用法和区别)
Aug 02 #Python
pandas DataFrame创建方法的方式
Aug 02 #Python
django项目环境搭建及在虚拟机本地创建django项目的教程
Aug 02 #Python
Django缓存系统实现过程解析
Aug 02 #Python
tensor和numpy的互相转换的实现示例
Aug 02 #Python
Django文件存储 自己定制存储系统解析
Aug 02 #Python
使用pycharm在本地开发并实时同步到服务器
Aug 02 #Python
You might like
php安全之直接用$获取值而不$_GET 字符转义
2012/06/03 PHP
destoon整合ucenter后注册页面不跳转的解决方法
2014/06/21 PHP
ThinkPHP的MVC开发机制实例解析
2014/08/23 PHP
Laravel框架学习笔记(二)项目实战之模型(Models)
2014/10/15 PHP
YUI 读码日记之 YAHOO.lang.is*
2008/03/22 Javascript
一个js写的日历(代码部分网摘)
2009/09/20 Javascript
Riot.js 快速的JavaScript单元测试框架
2009/11/09 Javascript
Dojo 学习要点
2010/09/03 Javascript
使用jQuery+HttpHandler+xml模拟一个三级联动的例子
2011/08/09 Javascript
判断js对象是否拥有某一个属性的js代码
2013/08/16 Javascript
js模式化窗口问题![window.dialogArguments]
2016/10/30 Javascript
jQuery命名空间与闭包用法示例
2017/01/12 Javascript
webpack2.0搭建前端项目的教程详解
2017/04/05 Javascript
利用Three.js如何实现阴影效果实例代码
2017/09/26 Javascript
vue中axios处理http发送请求的示例(Post和get)
2017/10/13 Javascript
Vue 中批量下载文件并打包的示例代码
2017/11/20 Javascript
jquery-file-upload 文件上传带进度条效果
2017/11/21 jQuery
命令行批量截图Node脚本示例代码
2019/01/25 Javascript
Javascript之高级数组API的使用实例
2019/03/08 Javascript
Node.js + express基本用法教程
2019/03/14 Javascript
Vue.js@2.6.10更新内置错误处机制Fundebug同步支持相应错误监控
2019/05/13 Javascript
JS学习笔记之原型链和利用原型实现继承详解
2019/05/29 Javascript
Python变量和数据类型详解
2017/02/15 Python
详解Python 解压缩文件
2019/04/09 Python
简单了解python 生成器 列表推导式 生成器表达式
2019/08/22 Python
CSS3实现可爱的小黄人动画
2016/07/11 HTML / CSS
彪马荷兰官网:PUMA荷兰
2019/05/08 全球购物
blueseventy官网:铁人三项和比赛泳衣
2021/02/06 全球购物
人力资源经理自我评价
2014/01/04 职场文书
应届实习生的自我评价范文
2014/01/05 职场文书
教师个人学习总结
2015/02/11 职场文书
Pytorch 中net.train 和 net.eval的使用说明
2021/05/22 Python
javascript条件式访问属性和箭头函数介绍
2021/11/17 Javascript
《堡垒之夜》联动《刺客信条》 4月7日正式上线
2022/04/06 其他游戏
CentOS安装Nginx并部署vue
2022/04/12 Servers
Go gRPC进阶教程gRPC转换HTTP
2022/06/16 Golang