python采集百度百科的方法


Posted in Python onJune 05, 2015

本文实例讲述了python采集百度百科的方法。分享给大家供大家参考。具体如下:

#!/usr/bin/python
# -*- coding: utf-8 -*-
#encoding=utf-8 
#Filename:get_baike.py
import urllib2,re
import sys
def getHtml(url,time=10):
 response = urllib2.urlopen(url,timeout=time)
 html = response.read()
 response.close()
 return html
def clearBlank(html):
 if len(html) == 0 : return ''
 html = re.sub('\r|\n|\t','',html)
 while html.find(" ")!=-1 or html.find(' ')!=-1 :
  html = html.replace(' ',' ').replace(' ',' ')
 return html
if __name__ == '__main__':
  html = getHtml('http://baike.baidu.com/view/4617031.htm',10)
  html = html.decode('gb2312','replace').encode('utf-8') #转码
  title_reg = r'<h1 class="title" id="[\d]+">(.*?)</h1>'
  content_reg = r'<div class="card-summary-content">(.*?)</p>'
  title = re.compile(title_reg).findall(html)
  content = re.compile(content_reg).findall(html)
  title[0] = re.sub(r'<[^>]*?>', '', title[0])
  content[0] = re.sub(r'<[^>]*?>', '', content[0])
  print title[0]
  print '#######################'
  print content[0]

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
Python基于有道实现英汉字典功能
Jul 25 Python
利用python将xml文件解析成html文件的实现方法
Dec 22 Python
Win7 64位下python3.6.5安装配置图文教程
Oct 27 Python
使用NumPy和pandas对CSV文件进行写操作的实例
Jun 14 Python
Django基础知识与基本应用入门教程
Jul 20 Python
django多个APP的urls设置方法(views重复问题解决)
Jul 19 Python
Python通过递归获取目录下指定文件代码实例
Nov 07 Python
Python注释、分支结构、循环结构、伪“选择结构”用法实例分析
Jan 09 Python
python实现按键精灵找色点击功能教程,使用pywin32和Pillow库
Jun 04 Python
python pillow库的基础使用教程
Jan 13 Python
python使用scapy模块实现ARP扫描的过程
Jan 21 Python
python for循环赋值问题
Jun 03 Python
python中引用与复制用法实例分析
Jun 04 #Python
Python进程间通信用法实例
Jun 04 #Python
python中__slots__用法实例
Jun 04 #Python
python协程用法实例分析
Jun 04 #Python
Python获取系统默认字符编码的方法
Jun 04 #Python
python中__call__内置函数用法实例
Jun 04 #Python
python抽象基类用法实例分析
Jun 04 #Python
You might like
关于PHP中的Class的几点个人看法
2006/10/09 PHP
基于文本的搜索
2006/10/09 PHP
PHP中的Streams详细介绍
2014/11/12 PHP
深入理解PHP中mt_rand()随机数的安全
2017/10/12 PHP
在JavaScript中使用inline函数的问题
2007/03/08 Javascript
下拉列表选择项的选中在不同浏览器中的兼容性问题探讨
2013/09/18 Javascript
JavaScript利用正则表达式去除日期中的“-”
2014/07/01 Javascript
JavaScript中switch判断容易犯错的一个细节
2014/08/27 Javascript
使用nodejs开发cli项目实例
2015/06/03 NodeJs
JS基于ocanvas插件实现的简单画板效果代码(附demo源码下载)
2016/04/05 Javascript
JavaScript中两个字符串的匹配
2016/06/08 Javascript
vue中引用阿里字体图标的方法
2018/02/10 Javascript
JS异步处理的进化史深入讲解
2019/08/25 Javascript
Vue+Node实现的商城用户管理功能示例
2019/12/23 Javascript
在vue中使用el-tab-pane v-show/v-if无效的解决
2020/08/03 Javascript
浅谈vue中resetFields()使用注意事项
2020/08/12 Javascript
微信小程序之高德地图多点路线规划过程示例详解
2021/01/18 Javascript
python传递参数方式小结
2015/04/17 Python
使用Python的Twisted框架编写非阻塞程序的代码示例
2016/05/25 Python
对numpy和pandas中数组的合并和拆分详解
2018/04/11 Python
将TensorFlow的模型网络导出为单个文件的方法
2018/04/23 Python
NumPy.npy与pandas DataFrame的实例讲解
2018/07/09 Python
python实现对任意大小图片均匀切割的示例
2018/12/05 Python
Python两台电脑实现TCP通信的方法示例
2019/05/06 Python
在python中实现调用可执行文件.exe的3种方法
2019/07/07 Python
基于python爬取有道翻译过程图解
2020/03/31 Python
CSS3实现同时执行倾斜和旋转的动画效果
2016/10/27 HTML / CSS
CSS3实现全景图特效示例代码
2018/03/26 HTML / CSS
英文翻译的自我评价语句
2013/10/04 职场文书
成品库仓管员岗位职责
2014/04/06 职场文书
查摆问题对照检查材料
2014/08/28 职场文书
第一书记观后感
2015/06/08 职场文书
JavaScript继承的三种方法实例
2021/05/12 Javascript
教你做个可爱的css滑动导航条
2021/06/15 HTML / CSS
搞笑Gif:这么白这么长的腿像极了一楼的女朋友
2022/03/21 杂记
苹果发布了MagSafe固件更新,可以不外接电源实现最高7.5W充电
2022/04/21 数码科技