使用BeautifulSoup爬虫程序获取百度搜索结果的标题和url示例


Posted in Python onJanuary 19, 2014

熟悉Java的jsoup包的话,对于Python的BeautifulSoup库应该很容易上手。

#coding: utf-8
import sys
import urllib
import urllib2
from BeautifulSoup import BeautifulSoup
question_word = "吃货 程序员"
url = "http://www.baidu.com/s?wd=" + urllib.quote(question_word.decode(sys.stdin.encoding).encode('gbk'))
htmlpage = urllib2.urlopen(url).read()
soup = BeautifulSoup(htmlpage)
print len(soup.findAll("table", {"class": "result"}))
for result_table in soup.findAll("table", {"class": "result"}):
    a_click = result_table.find("a")
    print "-----标题----\n" + a_click.renderContents()#标题
    print "----链接----\n" + str(a_click.get("href"))#链接
    print "----描述----\n" + result_table.find("div", {"class": "c-abstract"}).renderContents()#描述
    print
Python 相关文章推荐
python实现数通设备端口监控示例
Apr 02 Python
举例讲解Python中的死锁、可重入锁和互斥锁
Nov 05 Python
Python list操作用法总结
Nov 10 Python
python自动发送邮件脚本
Jun 20 Python
python数据批量写入ScrolledText的优化方法
Oct 11 Python
Python rstrip()方法实例详解
Nov 11 Python
Python文件操作中进行字符串替换的方法(保存到新文件/当前文件)
Jun 28 Python
django框架auth模块用法实例详解
Dec 10 Python
解决Python spyder显示不全df列和行的问题
Apr 20 Python
python调用API接口实现登陆短信验证
May 10 Python
Python趣味入门教程之循环语句while
Aug 26 Python
浅析Python OpenCV三种滤镜效果
Apr 11 Python
压缩包密码破解示例分享(类似典破解)
Jan 17 #Python
vc6编写python扩展的方法分享
Jan 17 #Python
python的urllib模块显示下载进度示例
Jan 17 #Python
Python中for循环详解
Jan 17 #Python
python在命令行下使用google翻译(带语音)
Jan 16 #Python
python支持断点续传的多线程下载示例
Jan 16 #Python
python获得图片base64编码示例
Jan 16 #Python
You might like
新的一年,新的期待:DC在2020年的四部动画电影
2020/01/01 欧美动漫
php过滤XSS攻击的函数
2013/11/12 PHP
php中session过期时间设置及session回收机制介绍
2014/05/05 PHP
php身份证号码检查类实例
2015/06/18 PHP
使用CSS3实现字体颜色渐变的实现
2021/03/09 HTML / CSS
Js 随机数产生6位数字
2010/05/13 Javascript
js获取IP地址的方法小结
2014/07/01 Javascript
对比分析json及XML
2014/11/28 Javascript
javascript日期比较方法实例分析
2016/06/17 Javascript
几种二级联动案例(jQuery\Array\Ajax php)
2016/08/13 Javascript
bootstrap为水平排列的表单和内联表单设置可选的图标
2017/02/15 Javascript
Javascript实现找不同色块的游戏
2017/07/17 Javascript
Array数组对象中的forEach、map、filter及reduce详析
2018/08/02 Javascript
13 个npm 快速开发技巧(推荐)
2019/07/04 Javascript
JavaScript如何获取一个元素的样式信息
2019/07/29 Javascript
JavaScript实现tab栏切换效果
2020/03/16 Javascript
JavaScript实现打字游戏
2021/02/19 Javascript
Python中用pycurl监控http响应时间脚本分享
2015/02/02 Python
Python中的两个内置模块介绍
2015/04/05 Python
TensorFlow数据输入的方法示例
2018/06/19 Python
python实现大学人员管理系统
2019/10/25 Python
浅谈Python3中print函数的换行
2020/08/05 Python
HTML5探秘:用requestAnimationFrame优化Web动画
2018/06/03 HTML / CSS
html5 canvas绘制放射性渐变色效果
2018/01/04 HTML / CSS
很酷的HTML5电子书翻页动画特效
2016/02/25 HTML / CSS
西班牙自行车和跑步商店:Alltricks
2018/07/07 全球购物
韩国乐天网上商城:Lotte iMall
2021/02/03 全球购物
必须要使用游标的SQL语句有那些
2012/05/07 面试题
软件配置管理有什么好处
2015/04/15 面试题
护士毕业实习感言
2014/03/05 职场文书
风险评估实施方案
2014/03/09 职场文书
毕业生就业意向书
2014/04/01 职场文书
学生实习证明范文
2014/09/28 职场文书
担保书范文
2015/01/20 职场文书
巴黎圣母院观后感
2015/06/10 职场文书
启迪人心的励志语录:脾气永远不要大于本事
2020/01/02 职场文书