编程 Python

Python采集腾讯新闻实例

Posted in Python onJuly 10, 2014

目标是把腾讯新闻主页上所有新闻爬取下来，获得每一篇新闻的名称、时间、来源以及正文。

接下来分解目标，一步一步地做。

步骤1：将主页上所有链接爬取出来，写到文件里。

python在获取html方面十分方便，寥寥数行代码就可以实现我们需要的功能。

def getHtml(url):

     page = urllib.urlopen(url)

     html = page.read()

     page.close()

     return html

我们都知道html链接的标签是“a”，链接的属性是“href”，也就是要获得html中所有tag=a，attrs=href 值。

查阅了资料，一开始我打算用HTMLParser，而且也写出来了。但是它有一个问题，就是遇到中文字符的时候无法处理。

 class parser(HTMLParser.HTMLParser):

     def handle_starttag(self, tag, attrs):

             if tag == 'a':

             for attr, value in attrs:

                 if attr == 'href':

                     print value

后来使用了SGMLParser，它就没有这个问题。

class URLParser(SGMLParser):       

        def reset(self):

                SGMLParser.reset(self)

                self.urls = []

 

        def start_a(self,attrs):        

                href = [v for k,v in attrs if k=='href']          

                if href:

                        self.urls.extend(href)

SGMLParser针对某个标签都需要重载它的函数，这里是把所有的链接放到该类的urls里。

lParser = URLParser()#分析器来的

socket = urllib.urlopen("http://news.qq.com/")#打开这个网页
fout = file('urls.txt', 'w')#要把链接写到这个文件里

lParser.feed(socket.read())#分析啦
reg = 'http://news.qq.com/a/.*'#这个是用来匹配符合条件的链接，使用正则表达式匹配

pattern = re.compile(reg)
for url in lParser.urls:#链接都存在urls里

    if pattern.match(url):

        fout.write(url+'\n')
fout.close()

这样子就把所有符合条件的链接都保存到urls.txt文件里了。

步骤2：对于每一个链接，获取它的网页内容。

很简单，只需要打开urls.txt文件，一行一行地读出来就可以了。

也许这里会显得多此一举，但是基于我对解耦的强烈愿望，我还是果断地写到文件里了。后面如果采用面向对象编程，重构起来是十分方便的。

获取网页内容部分也是相对简单的，但是需要把网页的内容都保存到一个文件夹里。

这里有几个新的用法：

os.getcwd()#获得当前文件夹路径

os.path.sep#当前系统路径分隔符（是这个叫法吗？）windows下是“\”，linux下是“/”
#判断文件夹是否存在，如果不存在则新建一个文件夹

if os.path.exists('newsdir') == False:

    os.makedirs('newsdir')
#str()用来将某个数字转为字符串

i = 5

str(i)

有了这些方法，将字符串保存到某个文件夹下不同的文件就不再是一件困难的事了。

步骤3：枚举每一个网页，根据正则匹配获得目标数据。

下面的方法是用来遍历文件夹的。

 #这个是用来遍历某个文件夹的

 for parent, dirnames, filenames in os.walk(dir):

     for dirname in dirnames

         print parent, dirname

     for filename in filenames:

         print parent, filename

遍历，读取，匹配，结果就出来了。

我使用的数据提取的正则表达式是这样的：

reg = '<div class="hd">.*?<h1>(.*?)</h1>.*?<span class="pubTime">(.*?)</span>.*?<a .*?>(.*?)</a>.*?<div id="Cnt-Main-Article-QQ" .*?>(.*?)</div>'

其实这个并不能匹配到腾讯网的所有新闻，因为上面的新闻有两种格式，标签有一点差别，所以只能提取出一种。

另外一点就是通过正则表达式的提取肯定不是主流的提取方法，如果需要采集其他网站，就需要变更正则表达式，这可是一件比较麻烦的事情。

提取之后观察可知，正文部分总是会参杂一些无关信息，比如“<script>...</script>”“<p></p>”等等。所以我再通过正则表达式将正文切片。

def func(str):#谁起的这个名字

    strs = re.split("<style>.*?</style>|<script.*?>.*?</script>|&#[0-9]+;|<!--\[if !IE\]>.+?<!\[endif\]-->|<.*?>", str)#各种匹配，通过“|”分隔

    ans = ''

    #将切分的结果组合起来

    for each in strs:

        ans += each

    return ans

这样腾讯网上面的正文基本全部能够提取出来。

到此整个采集也就结束了。

展示一下我提取到的结果（不使用自动换行，右边隐藏了）：

Python采集腾讯新闻实例

注意：

1、打开某个网址的时候，如果网址是坏的（打不开），若不处理则会报错。我简单地使用处理异常的方式，估计应该有其他方式。

try:

    socket = urllib.urlopen(url)

except:

    continue

2、Python正则表达式中的“.”号，可以匹配任意字符，但是除了“\n”。

3、如何去除字符串末尾的“\n”？python的处理简直优雅到死啊！

if line[-1] == '\n':

    line = line[0:-1]

Python采集腾讯新闻实例

- Author -

junjie

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python编程中的文件操作攻略

Oct 16 Python

简要讲解Python编程中线程的创建与锁的使用

Feb 28 Python

Python实现SMTP发送邮件详细教程

Mar 02 Python

Python 处理图片像素点的实例

Jan 08 Python

在Pycharm中执行scrapy命令的方法

Jan 16 Python

用uWSGI和Nginx部署Flask项目的方法示例

May 05 Python

python读取大文件越来越慢的原因与解决

Aug 08 Python

Django使用uwsgi部署时的配置以及django日志文件的处理方法

Aug 30 Python

pytorch程序异常后删除占用的显存操作

Jan 13 Python

PyCharm Ctrl+Shift+F 失灵的简单有效解决操作

Jan 15 Python

C站最全Python标准库总结,你想要的都在这里

Jul 03 Python

Python加密与解密模块hashlib与hmac

Jun 05 Python

使用wxpython实现的一个简单图片浏览器实例

Jul 10 #Python

Python语言的12个基础知识点小结

Jul 10 #Python

使用Python获取Linux系统的各种信息

Jul 10 #Python

Django中实现一个高性能计数器(Counter)实例

Jul 09 #Python

python实现的登录和操作开心网脚本分享

Jul 09 #Python

python实现的一个火车票转让信息采集器

Jul 09 #Python

python的描述符(descriptor)、装饰器（property）造成的一个无限递归问题分享

Jul 09 #Python

You might like

PHP+XML 制作简单的留言本图文教程

2009/11/02 PHP

php截取utf-8中文字符串乱码的解决方法

2010/03/29 PHP

PHP教程之PHP中shell脚本的使用方法分享

2012/02/23 PHP

thinkphp5.0自定义验证规则使用方法

2017/11/16 PHP

javascript 简单抽屉效果的实现代码

2010/03/09 Javascript

JavaScript 垃圾回收机制分析

2013/10/10 Javascript

基于jQuery+Cookie实现的防止刷新的在线考试倒计时

2015/06/19 Javascript

Angular实现form自动布局

2016/01/28 Javascript

深入理解JavaScript中为什么string可以拥有方法

2016/05/24 Javascript

jQuery 选择器（61种）整理总结

2016/09/26 Javascript

angular.fromJson与toJson方法用法示例

2017/05/17 Javascript

基于Vue实例生命周期(全面解析)

2017/08/16 Javascript

vue.js项目打包上线的图文教程

2017/11/16 Javascript

详解JS数值Number类型

2018/02/07 Javascript

Vue.js 踩坑记之双向绑定

2018/05/03 Javascript

vue 路由缓存路由嵌套路由守卫监听物理返回操作

2020/08/06 Javascript

jQuery实现动态向上滚动

2020/12/21 jQuery

python实现计算资源图标crc值的方法

2014/10/05 Python

详解如何为eclipse安装合适版本的python插件pydev

2018/11/04 Python

python3 求约数的实例

2019/12/05 Python

在python shell中运行python文件的实现

2019/12/21 Python

python安装dlib库报错问题及解决方法

2020/03/16 Python

Python如何将将模块分割成多个文件

2020/08/04 Python

python xlsxwriter模块的使用

2020/12/24 Python

销售所有的狗狗产品：Dog.com

2016/10/13 全球购物

Conforama瑞士：家具、厨房、电器、装饰

2020/09/06 全球购物

标记环网Toke Ring IEEE802.5

2014/05/26 面试题

平民服装店创业计划书

2014/01/17 职场文书

婚庆公司的创业计划书

2014/01/22 职场文书

消防安全员岗位职责

2014/03/10 职场文书

教师党的群众路线对照检查材料

2014/09/24 职场文书

2014年个人售房协议书

2014/10/30 职场文书

扬州个园导游词

2015/02/06 职场文书

南京大屠杀观后感

2015/06/02 职场文书

北京爱情故事观后感

2015/06/12 职场文书

MySql 8.0及对应驱动包匹配的注意点说明

2021/06/23 MySQL