使用BeautifulSoup爬虫程序获取百度搜索结果的标题和url示例


Posted in Python onJanuary 19, 2014

熟悉Java的jsoup包的话,对于Python的BeautifulSoup库应该很容易上手。

#coding: utf-8
import sys
import urllib
import urllib2
from BeautifulSoup import BeautifulSoup
question_word = "吃货 程序员"
url = "http://www.baidu.com/s?wd=" + urllib.quote(question_word.decode(sys.stdin.encoding).encode('gbk'))
htmlpage = urllib2.urlopen(url).read()
soup = BeautifulSoup(htmlpage)
print len(soup.findAll("table", {"class": "result"}))
for result_table in soup.findAll("table", {"class": "result"}):
    a_click = result_table.find("a")
    print "-----标题----\n" + a_click.renderContents()#标题
    print "----链接----\n" + str(a_click.get("href"))#链接
    print "----描述----\n" + result_table.find("div", {"class": "c-abstract"}).renderContents()#描述
    print
Python 相关文章推荐
python django集成cas验证系统
Jul 14 Python
Python3通过Luhn算法快速验证信用卡卡号的方法
May 14 Python
使用Python编写简单的端口扫描器的实例分享
Dec 18 Python
TensorFlow平台下Python实现神经网络
Mar 10 Python
在unittest中使用 logging 模块记录测试数据的方法
Nov 30 Python
python+opencv实现摄像头调用的方法
Jun 22 Python
Python分析彩票记录并预测中奖号码过程详解
Jul 09 Python
pygame实现打字游戏
Feb 19 Python
基于Python3.7.1无法导入Numpy的解决方式
Mar 09 Python
python numpy实现多次循环读取文件 等间隔过滤数据示例
Mar 14 Python
解决python打开https出现certificate verify failed的问题
Sep 03 Python
Matplotlib配色之Colormap详解
Jan 05 Python
压缩包密码破解示例分享(类似典破解)
Jan 17 #Python
vc6编写python扩展的方法分享
Jan 17 #Python
python的urllib模块显示下载进度示例
Jan 17 #Python
Python中for循环详解
Jan 17 #Python
python在命令行下使用google翻译(带语音)
Jan 16 #Python
python支持断点续传的多线程下载示例
Jan 16 #Python
python获得图片base64编码示例
Jan 16 #Python
You might like
PHP初学者头疼问题总结
2006/07/08 PHP
php+ajax实现图片文件上传功能实例
2014/06/17 PHP
PHP常用函数之获取汉字首字母功能示例
2019/10/21 PHP
laravel框架模型和数据库基础操作实例详解
2020/01/25 PHP
div+css布局的图片连续滚动js实现代码
2010/05/04 Javascript
解决css和js的{}与smarty定界符冲突问题的两种方法
2013/09/10 Javascript
node.js中的console.timeEnd方法使用说明
2014/12/09 Javascript
Jquery ajax 同步阻塞引起的UI线程阻塞问题
2015/11/17 Javascript
JavaScript性能优化之小知识总结
2015/11/20 Javascript
基于JavaScript实现全屏透明遮罩div层锁屏效果
2016/01/26 Javascript
Node.js中Request模块处理HTTP协议请求的基本使用教程
2016/03/31 Javascript
第十篇BootStrap轮播插件使用详解
2016/06/21 Javascript
JavaScript中的this陷阱的最全收集并整理(没有之一)
2017/02/21 Javascript
js实现适配不同的屏幕大小
2017/04/10 Javascript
webpack多入口多出口的实现方法
2018/08/17 Javascript
vue-cli3.0如何使用CDN区分开发、生产、预发布环境
2018/11/22 Javascript
VueX模块的具体使用(小白教程)
2020/06/05 Javascript
浅谈vue中$event理解和框架中在包含默认值外传参
2020/08/07 Javascript
Vue 样式切换及三元判断样式关联操作
2020/08/09 Javascript
解决Mint-ui 框架Popup和Datetime Picker组件滚动穿透的问题
2020/11/04 Javascript
[04:52]DOTA2亚洲邀请赛附加赛 TOP10精彩集锦
2015/01/29 DOTA
Python识别html主要文本框过程解析
2020/02/18 Python
使用Pycharm分段执行代码
2020/04/15 Python
python 比较字典value的最大值的几种方法
2020/04/17 Python
解决Pycharm双击图标启动不了的问题(JetBrains全家桶通用)
2020/08/07 Python
python中xlrd模块的使用详解
2021/02/01 Python
css3 transform及原生js实现鼠标拖动3D立方体旋转
2016/06/20 HTML / CSS
Vivo俄罗斯官方在线商店:中国智能手机品牌
2019/10/04 全球购物
求职信范文怎么写
2014/01/29 职场文书
生产部管理制度
2014/01/31 职场文书
广告宣传策划方案
2014/05/21 职场文书
2014年个人技术工作总结
2014/12/08 职场文书
2016见义勇为事迹材料汇总
2016/03/01 职场文书
微信小程序基础教程之echart的使用
2021/06/01 Javascript
一文弄懂MySQL索引创建原则
2022/02/28 MySQL
InterProcessMutex实现zookeeper分布式锁原理
2022/03/21 Java/Android