python采集百度百科的方法


Posted in Python onJune 05, 2015

本文实例讲述了python采集百度百科的方法。分享给大家供大家参考。具体如下:

#!/usr/bin/python
# -*- coding: utf-8 -*-
#encoding=utf-8 
#Filename:get_baike.py
import urllib2,re
import sys
def getHtml(url,time=10):
 response = urllib2.urlopen(url,timeout=time)
 html = response.read()
 response.close()
 return html
def clearBlank(html):
 if len(html) == 0 : return ''
 html = re.sub('\r|\n|\t','',html)
 while html.find(" ")!=-1 or html.find(' ')!=-1 :
  html = html.replace(' ',' ').replace(' ',' ')
 return html
if __name__ == '__main__':
  html = getHtml('http://baike.baidu.com/view/4617031.htm',10)
  html = html.decode('gb2312','replace').encode('utf-8') #转码
  title_reg = r'<h1 class="title" id="[\d]+">(.*?)</h1>'
  content_reg = r'<div class="card-summary-content">(.*?)</p>'
  title = re.compile(title_reg).findall(html)
  content = re.compile(content_reg).findall(html)
  title[0] = re.sub(r'<[^>]*?>', '', title[0])
  content[0] = re.sub(r'<[^>]*?>', '', content[0])
  print title[0]
  print '#######################'
  print content[0]

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
Python中的生成器和yield详细介绍
Jan 09 Python
Python中文分词实现方法(安装pymmseg)
Jun 14 Python
Python基于回溯法子集树模板解决找零问题示例
Sep 11 Python
Python cookbook(数据结构与算法)同时对数据做转换和换算处理操作示例
Mar 23 Python
Python3使用正则表达式爬取内涵段子示例
Apr 22 Python
Python3实现的简单三级菜单功能示例
Mar 12 Python
Python搭建代理IP池实现接口设置与整体调度
Oct 27 Python
python Shapely使用指南详解
Feb 18 Python
pandas分组聚合详解
Apr 10 Python
深入了解Python 变量作用域
Jul 24 Python
python全栈开发语法总结
Nov 22 Python
python+opencv3.4.0 实现HOG+SVM行人检测的示例代码
Jan 28 Python
python中引用与复制用法实例分析
Jun 04 #Python
Python进程间通信用法实例
Jun 04 #Python
python中__slots__用法实例
Jun 04 #Python
python协程用法实例分析
Jun 04 #Python
Python获取系统默认字符编码的方法
Jun 04 #Python
python中__call__内置函数用法实例
Jun 04 #Python
python抽象基类用法实例分析
Jun 04 #Python
You might like
利用PHP动态生成VRML网页
2006/10/09 PHP
一段php加密解密的代码
2007/07/16 PHP
php xml文件操作代码(一)
2009/03/20 PHP
用JavaScript编写COM组件的步骤
2009/03/17 Javascript
ExtJS 2.0实用简明教程之应用ExtJS
2009/04/29 Javascript
Jquery实现简单的动画效果代码
2012/03/18 Javascript
浅谈Javascript数组索引
2015/07/29 Javascript
javascript HTML5 Canvas实现圆盘抽奖功能
2016/04/11 Javascript
JS实现兼容各种浏览器的高级拖动方法完整实例【测试可用】
2016/06/21 Javascript
js实现消息滚动效果
2017/01/18 Javascript
JavaScript基础心法 深浅拷贝(浅拷贝和深拷贝)
2018/03/05 Javascript
layer.close()关闭进度条和Iframe窗的方法
2018/08/17 Javascript
vue+webpack 更换主题N种方案优劣分析
2019/10/28 Javascript
Vue切换div显示隐藏,多选,单选代码解析
2020/07/14 Javascript
[02:57]DOTA2亚洲邀请赛小组赛第四日 赛事回顾
2015/02/02 DOTA
python3.6的venv模块使用详解
2018/08/01 Python
python 处理string到hex脚本的方法
2018/10/26 Python
python计算两个矩形框重合百分比的实例
2018/11/07 Python
使用Python快速制作可视化报表的方法
2019/02/03 Python
详解一种用django_cache实现分布式锁的方式
2019/09/01 Python
Python3 pandas 操作列表实例详解
2019/09/23 Python
如何在VSCode上轻松舒适的配置Python的方法步骤
2019/10/28 Python
基于Python中的yield表达式介绍
2019/11/19 Python
有关Tensorflow梯度下降常用的优化方法分享
2020/02/04 Python
python实现快递价格查询系统
2020/03/03 Python
在网上学习全世界最好的课程:Coursera
2017/11/07 全球购物
全球立体声:World Wide Stereo
2018/09/29 全球购物
.NET里面如何取得当前的屏幕分辨率
2012/12/06 面试题
what is the difference between ext2 and ext3
2015/08/25 面试题
幼儿园安全责任书
2014/04/14 职场文书
婚礼女方父母答谢词
2015/01/04 职场文书
入党积极分子党小组意见
2015/06/02 职场文书
何玥事迹观后感
2015/06/16 职场文书
开学第一天的感想
2015/08/10 职场文书
php中pcntl_fork详解
2021/04/01 PHP
MySQL令人咋舌的隐式转换
2021/04/05 MySQL