编程 Python

Python爬虫——爬取豆瓣电影Top250代码实例

Posted in Python onApril 17, 2019

利用python爬取豆瓣电影Top250的相关信息，包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容，然后将爬取的信息写入Excel表中。基本上爬取结果还是挺好的。具体代码如下：

#!/usr/bin/python
#-*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf8')
from bs4 import BeautifulSoup
import re
import urllib2
import xlwt

#得到页面全部内容
def askURL(url):
  request = urllib2.Request(url)#发送请求
  try:
    response = urllib2.urlopen(request)#取得响应
    html= response.read()#获取网页内容
    #print html
  except urllib2.URLError, e:
    if hasattr(e,"code"):
      print e.code
    if hasattr(e,"reason"):
      print e.reason
  return html

#获取相关内容
def getData(baseurl):
  findLink=re.compile(r'<a href="(.*?)" rel="external nofollow" >')#找到影片详情链接
  findImgSrc=re.compile(r'<img.*src="(.*jpg)"',re.S)#找到影片图片
  findTitle=re.compile(r'<span class="title">(.*)</span>')#找到片名
  #找到评分
  findRating=re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')
  #找到评价人数
  findJudge=re.compile(r'<span>(\d*)人评价</span>')
  #找到概况
  findInq=re.compile(r'<span class="inq">(.*)</span>')
  #找到影片相关内容：导演，主演，年份，地区，类别
  findBd=re.compile(r'<p class="">(.*?)</p>',re.S)
  #去掉无关内容
  remove=re.compile(r'              |\n|</br>|\.*')
  datalist=[]
  for i in range(0,10):
    url=baseurl+str(i*25)
    html=askURL(url)
    soup = BeautifulSoup(html, "html.parser")
    for item in soup.find_all('div',class_='item'):#找到每一个影片项
      data=[]
      item=str(item)#转换成字符串
      #print item
      link=re.findall(findLink,item)[0]
      data.append(link)#添加详情链接
      imgSrc=re.findall(findImgSrc,item)[0]
      data.append(imgSrc)#添加图片链接
      titles=re.findall(findTitle,item)
      #片名可能只有一个中文名，没有外国名
      if(len(titles)==2):
        ctitle=titles[0]
        data.append(ctitle)#添加中文片名
        otitle=titles[1].replace(" / ","")#去掉无关符号
        data.append(otitle)#添加外国片名
      else:
        data.append(titles[0])#添加中文片名
        data.append(' ')#留空
      rating=re.findall(findRating,item)[0]
      data.append(rating)#添加评分
      judgeNum=re.findall(findJudge,item)[0]
      data.append(judgeNum)#添加评论人数
      inq=re.findall(findInq,item)
      #可能没有概况
      if len(inq)!=0:
        inq=inq[0].replace("。","")#去掉句号
        data.append(inq)#添加概况
      else:
        data.append(' ')#留空
      bd=re.findall(findBd,item)[0]
      bd=re.sub(remove,"",bd)
      bd=re.sub('<br>'," ",bd)#去掉<br>
      bd=re.sub('/'," ",bd)#替换/
      #data.append(bd)
      words=bd.split(" ")
      for s in words:
        if len(s)!=0 and s!=' ':#去掉空白内容
           data.append(s)
      #主演有可能因为导演内容太长而没有
      if(len(data)!=12):
        data.insert(8,' ')#留空
      datalist.append(data)
  return datalist

#将相关数据写入excel中
def saveData(datalist,savepath):
  book=xlwt.Workbook(encoding='utf-8',style_compression=0)
  sheet=book.add_sheet('豆瓣电影Top250',cell_overwrite_ok=True)
  col=('电影详情链接','图片链接','影片中文名','影片外国名',
        '评分','评价数','概况','导演','主演','年份','地区','类别')
  for i in range(0,12):
    sheet.write(0,i,col[i])#列名
  for i in range(0,250):
    data=datalist[i]
    for j in range(0,12):
      sheet.write(i+1,j,data[j])#数据
  book.save(savepath)#保存

def main():
  baseurl='https://movie.douban.com/top250?start='
  datalist=getData(baseurl)
  savapath=u'豆瓣电影Top250.xlsx'
  saveData(datalist,savapath)

main()

Excel表部分内容如下：

以上所述是小编给大家介绍的Python爬取豆瓣电影Top250实例详解整合，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持！

Python爬虫——爬取豆瓣电影Top250代码实例

- Author -

Fighting_No1

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python 文件操作技巧(File operation) 实例代码分析

Aug 11 Python

python网络编程示例(客户端与服务端)

Apr 24 Python

详解Python的Django框架中Manager方法的使用

Jul 21 Python

Python探索之URL Dispatcher实例详解

Oct 28 Python

python中判断文件编码的chardet(实例讲解)

Dec 21 Python

TensorFlow打印tensor值的实现方法

Jul 27 Python

itchat-python搭建微信机器人(附示例)

Jun 11 Python

Python操作SQLite/MySQL/LMDB数据库的方法

Nov 07 Python

python自动化unittest yaml使用过程解析

Feb 03 Python

浅谈matplotlib中FigureCanvasXAgg的用法

Jun 16 Python

Python日志器使用方法及原理解析

Sep 27 Python

python分布式爬虫中消息队列知识点详解

Nov 26 Python

Python2与Python3的区别实例总结

Apr 17 #Python

详解Python用户登录接口的方法

Apr 17 #Python

详解python中递归函数

Apr 16 #Python

python学习--使用QQ邮箱发送邮件代码实例

Apr 16 #Python

详解Python连接MySQL数据库的多种方式

Apr 16 #Python

详解Python学习之安装pandas

Apr 16 #Python

不归路系列：Python入门之旅-一定要注意缩进！！！（推荐）

Apr 16 #Python

You might like

ASP知识讲座四

2006/10/09 PHP

php过滤所有恶意字符(批量过滤post,get敏感数据)

2014/03/18 PHP

php实现按文件名搜索文件的远程文件查找器

2014/05/10 PHP

PHP使用file_get_content设置头信息的方法

2016/02/14 PHP

ThinkPHP5.1的权限控制怎么写？分享一个AUTH权限控制

2021/03/09 PHP

零基础学JavaScript最新动画教程+iso光盘下载

2008/01/22 Javascript

基于jQuery实现的旋转彩圈实例

2015/06/26 Javascript

jQuery实现鼠标跟随提示层效果代码(可显示文本,Div,Table,Html等)

2016/04/18 Javascript

图解Javascript——作用域、作用域链、闭包

2017/03/21 Javascript

JavaScript实现动态添加Form表单元素的方法示例

2017/08/14 Javascript

详解react-native-fs插件的使用以及遇到的坑

2017/09/12 Javascript

极简主义法编写JavaScript类

2017/11/02 Javascript

Angular之toDoList的实现代码示例

2017/12/02 Javascript

vue + element-ui实现简洁的导入导出功能

2017/12/22 Javascript

vue.js 图片上传并预览及图片更换功能的实现代码

2018/08/27 Javascript

解决layui页面按钮点击无反应,也不报错的问题

2019/09/29 Javascript

[03:07]DOTA2英雄基础教程冰霜诅咒极寒幽魂

2013/12/06 DOTA

[01:10:02]IG vs Winstrike 2018国际邀请赛小组赛BO2 第一场 8.19

2018/08/21 DOTA

详解Django框架中用context来解析模板的方法

2015/07/20 Python

简单讲解Python编程中namedtuple类的用法

2016/06/21 Python

python 实现敏感词过滤的方法

2019/01/21 Python

PyQt编程之如何在屏幕中央显示窗体的实例

2019/06/18 Python

基于python3 pyQt5 QtDesignner实现窗口化猜数字游戏功能

2019/07/15 Python

Python 根据日志级别打印不同颜色的日志的方法示例

2019/08/08 Python

Pytorch中的variable, tensor与numpy相互转化的方法

2019/10/10 Python

如何关掉pycharm中的python console(图解)

2019/10/31 Python

python将logging模块封装成单独模块并实现动态切换Level方式

2020/05/12 Python

Python中的Cookie模块如何使用

2020/06/04 Python

HTML5 层的叠加的实现

2020/07/07 HTML / CSS

美国在线艺术商店：HandmadePiece

2020/11/06 全球购物

会计个人实习计划书

2014/08/15 职场文书

春风化雨观后感

2015/06/11 职场文书

小学感恩主题班会

2015/08/12 职场文书

医院病假条范文

2015/08/17 职场文书

优秀新员工事迹材料

2019/05/13 职场文书

PostgreSQL出现死锁该如何解决

2022/05/30 PostgreSQL