Python实现的爬取豆瓣电影信息功能案例


Posted in Python onSeptember 15, 2019

本文实例讲述了Python实现的爬取豆瓣电影信息功能。分享给大家供大家参考,具体如下:

本案例的任务为,爬取豆瓣电影top250的电影信息(包括序号、电影名称、导演和主演、评分以及经典台词),并将信息作为字典形式保存进txt文件。这里只用到requests库,没有用到beautifulsoup库

step1:首先获取每一页的源代码,用requests.get函数获取,为了防止请求错误,使用try...except..

def getpage(url):
  try:
    res=requests.get(url)
    if res.status_code==200:
      return res.text
    return None
  except RequestException:
    return None

step2:做每一页的网址解析,打开原网址https://movie.douban.com/top250?,查看网页源代码,可以看到每一个电影的源代码都是从<li>开始,在</li>处结束,写好正则表达式以后爬到的列表的每一条item都有五个元素,因此将其写成字典的形式,这里用到yield函数(关于yield函数的用法,廖老师的有一篇文章比较好懂https://www.ibm.com/developerworks/cn/opensource/os-cn-python-yield/)

Python实现的爬取豆瓣电影信息功能案例

对单个网页的进行解析的代码如下:

def parsepage(html):
  pat=re.compile('<li>.*?<em class="">(.*?)</em>.*?<img width="100" alt="(.*?)" src=.*?<p class="">'
          +'(.*?)</p>.*?property="v:average">(.*?)</span>.*?<span class="inq">(.*?)</span>.*?</li>',re.S)
  items=re.findall(pat,html)
  for item in items:
    yield{
      'index':item[0],
      'title':item[1],
      'stars':item[2].strip(),
      'score':item[3],
      'concept':item[4]
    }

下面的代码是将每一个item写入文件,这里encoding='utf-8' 和ensure_ascii=False都是使写入文件时中文能保持不变,json.dumps可以将(字典)对象转化成字符串(但前面要先import json),with open的第二个参数为a,表示每次写入时,是往后追加(续接),而不是后一次写入将之前内容覆盖,\n是指要每一次写入一个item之后要换行。

def write_tofile(content):
  with open('doubanfilms.txt','a',encoding='utf-8' ) as f:
    f.write(json.dumps(content,ensure_ascii=False)+'\n')
    f.close()

最后,需要用循环语句将每一页(共10页)内容都进行以上操作。这里,第二页的网址就是在第一页的url上加上一个start=25, 第三页是加上start=50,也就是每一页的start=为25*i。最后一段代码如下:

def main():
  url="https://movie.douban.com/top250?"
  for i in range(0,9):
    url_i=url+'start='+str(25*i)
    html_i=getpage(url_i)
    for item in parsepage(html_i):
      print(item)
      write_tofile(item)
if __name__ == '__main__':
  main()

当然,这一段代码还有一种写法:

def main(start):
  url="https://movie.douban.com/top250?start="+str(start)
  html=getpage(url)
  for item in parsepage(html):
    print(item)
    write_tofile(item)
if __name__ == '__main__':
  for i in range(10):
    main(i*10)

如果想让你的程序跑的更快,可以用多线程爬虫(当然这里其实没有必要):

#在最开始加载Pool包
from multiprocessing import Pool
#最后的执行段改为:
if __name__ == '__main__':
  for i in range(10):
    main(i*10)
  pool=Pool() #在循环外写
  pool.map(main,[i*10 for i in range (10)])

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
pyqt4教程之messagebox使用示例分享
Mar 07 Python
python+pygame简单画板实现代码实例
Dec 13 Python
PYTHON基础-时间日期处理小结
May 05 Python
利用Python写一个爬妹子的爬虫
Jun 08 Python
利用python提取wav文件的mfcc方法
Jan 09 Python
Python搭建Spark分布式集群环境
Jul 05 Python
Python3的高阶函数map,reduce,filter的示例详解
Jul 23 Python
Python爬虫实现的根据分类爬取豆瓣电影信息功能示例
Sep 15 Python
python-numpy-指数分布实例详解
Dec 07 Python
解决Python 函数声明先后顺序出现的问题
Sep 02 Python
Python 远程开关机的方法
Nov 18 Python
Python中22个万用公式的小结
Jul 21 Python
Python数据库小程序源代码
Sep 15 #Python
python中树与树的表示知识点总结
Sep 14 #Python
python树的同构学习笔记
Sep 14 #Python
python图形绘制奥运五环实例讲解
Sep 14 #Python
python列表插入append(), extend(), insert()用法详解
Sep 14 #Python
postman传递当前时间戳实例详解
Sep 14 #Python
Python 经典算法100及解析(小结)
Sep 13 #Python
You might like
如何用php获取程序执行的时间
2013/06/09 PHP
Destoon旺旺无法正常显示,点击提示“会员名不存在”的解决办法
2014/06/21 PHP
php过滤html标记属性类用法实例
2014/09/23 PHP
php实现微信公众平台账号自定义菜单类
2015/10/11 PHP
PHP简单操作MongoDB的方法(安装及增删改查)
2016/05/26 PHP
无缝滚动js代码通俗易懂(自写)
2013/06/19 Javascript
js保留两位小数使用toFixed实现
2013/07/29 Javascript
jquery 字符串切割函数substring的用法说明
2014/02/11 Javascript
javascript 获取iframe里页面中元素值的方法
2014/02/17 Javascript
js使用for循环查询数组中是否存在某个值
2014/08/12 Javascript
js生成的验证码的实现与技术分析
2014/09/17 Javascript
jquery关于事件冒泡和事件委托的技巧及阻止与允许事件冒泡的三种实现方法
2015/11/27 Javascript
AngularJS基础 ng-click 指令示例代码
2016/08/01 Javascript
两种JavaScript的AES加密方式(可与Java相互加解密)
2016/08/02 Javascript
Node.js connect ECONNREFUSED错误解决办法
2016/09/15 Javascript
JavaScript浮点数及运算精度调整详解
2016/10/21 Javascript
Vue中img的src属性绑定与static文件夹实例
2017/05/18 Javascript
webpack热模块替换(HMR)/热更新的方法
2018/04/05 Javascript
vue-router传参用法详解
2019/01/19 Javascript
微信小程序 调用微信授权窗口相关问题解决
2019/07/25 Javascript
基于JavaScript实现随机点名器
2021/02/25 Javascript
解决python写入mysql中datetime类型遇到的问题
2018/06/21 Python
python3-flask-3将信息写入日志的实操方法
2019/11/12 Python
PyTorch 对应点相乘、矩阵相乘实例
2019/12/27 Python
python数据类型可变不可变知识点总结
2020/03/06 Python
Restful_framework视图组件代码实例解析
2020/11/17 Python
西班牙太阳镜品牌:Hawkers
2018/03/11 全球购物
Java语言程序设计测试题判断题部分
2013/01/06 面试题
会计电算化专业应届大学生求职信
2013/10/22 职场文书
遗体告别仪式主持词
2014/03/20 职场文书
国庆节演讲稿
2014/05/27 职场文书
乡镇创先争优活动总结
2014/08/28 职场文书
党员自我剖析材料
2014/08/31 职场文书
校本培训个人总结
2015/02/28 职场文书
尼克胡哲观后感
2015/06/08 职场文书
能用CSS实现的就不要麻烦JavaScript了
2021/10/05 HTML / CSS