Python爬虫——爬取豆瓣电影Top250代码实例


Posted in Python onApril 17, 2019

利用python爬取豆瓣电影Top250的相关信息,包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容,然后将爬取的信息写入Excel表中。基本上爬取结果还是挺好的。具体代码如下:

#!/usr/bin/python
#-*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf8')
from bs4 import BeautifulSoup
import re
import urllib2
import xlwt

#得到页面全部内容
def askURL(url):
  request = urllib2.Request(url)#发送请求
  try:
    response = urllib2.urlopen(request)#取得响应
    html= response.read()#获取网页内容
    #print html
  except urllib2.URLError, e:
    if hasattr(e,"code"):
      print e.code
    if hasattr(e,"reason"):
      print e.reason
  return html

#获取相关内容
def getData(baseurl):
  findLink=re.compile(r'<a href="(.*?)" rel="external nofollow" >')#找到影片详情链接
  findImgSrc=re.compile(r'<img.*src="(.*jpg)"',re.S)#找到影片图片
  findTitle=re.compile(r'<span class="title">(.*)</span>')#找到片名
  #找到评分
  findRating=re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')
  #找到评价人数
  findJudge=re.compile(r'<span>(\d*)人评价</span>')
  #找到概况
  findInq=re.compile(r'<span class="inq">(.*)</span>')
  #找到影片相关内容:导演,主演,年份,地区,类别
  findBd=re.compile(r'<p class="">(.*?)</p>',re.S)
  #去掉无关内容
  remove=re.compile(r'              |\n|</br>|\.*')
  datalist=[]
  for i in range(0,10):
    url=baseurl+str(i*25)
    html=askURL(url)
    soup = BeautifulSoup(html, "html.parser")
    for item in soup.find_all('div',class_='item'):#找到每一个影片项
      data=[]
      item=str(item)#转换成字符串
      #print item
      link=re.findall(findLink,item)[0]
      data.append(link)#添加详情链接
      imgSrc=re.findall(findImgSrc,item)[0]
      data.append(imgSrc)#添加图片链接
      titles=re.findall(findTitle,item)
      #片名可能只有一个中文名,没有外国名
      if(len(titles)==2):
        ctitle=titles[0]
        data.append(ctitle)#添加中文片名
        otitle=titles[1].replace(" / ","")#去掉无关符号
        data.append(otitle)#添加外国片名
      else:
        data.append(titles[0])#添加中文片名
        data.append(' ')#留空
      rating=re.findall(findRating,item)[0]
      data.append(rating)#添加评分
      judgeNum=re.findall(findJudge,item)[0]
      data.append(judgeNum)#添加评论人数
      inq=re.findall(findInq,item)
      #可能没有概况
      if len(inq)!=0:
        inq=inq[0].replace("。","")#去掉句号
        data.append(inq)#添加概况
      else:
        data.append(' ')#留空
      bd=re.findall(findBd,item)[0]
      bd=re.sub(remove,"",bd)
      bd=re.sub('<br>'," ",bd)#去掉<br>
      bd=re.sub('/'," ",bd)#替换/
      #data.append(bd)
      words=bd.split(" ")
      for s in words:
        if len(s)!=0 and s!=' ':#去掉空白内容
           data.append(s)
      #主演有可能因为导演内容太长而没有
      if(len(data)!=12):
        data.insert(8,' ')#留空
      datalist.append(data)
  return datalist

#将相关数据写入excel中
def saveData(datalist,savepath):
  book=xlwt.Workbook(encoding='utf-8',style_compression=0)
  sheet=book.add_sheet('豆瓣电影Top250',cell_overwrite_ok=True)
  col=('电影详情链接','图片链接','影片中文名','影片外国名',
        '评分','评价数','概况','导演','主演','年份','地区','类别')
  for i in range(0,12):
    sheet.write(0,i,col[i])#列名
  for i in range(0,250):
    data=datalist[i]
    for j in range(0,12):
      sheet.write(i+1,j,data[j])#数据
  book.save(savepath)#保存

def main():
  baseurl='https://movie.douban.com/top250?start='
  datalist=getData(baseurl)
  savapath=u'豆瓣电影Top250.xlsx'
  saveData(datalist,savapath)

main()

Excel表部分内容如下:

Python爬虫——爬取豆瓣电影Top250代码实例

以上所述是小编给大家介绍的Python爬取豆瓣电影Top250实例详解整合,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!

Python 相关文章推荐
浅谈Python中数据解析
May 05 Python
Python内置数据结构与操作符的练习题集锦
Jul 01 Python
浅谈Python 对象内存占用
Jul 15 Python
Pandas 数据处理,数据清洗详解
Jul 10 Python
python文件拆分与重组实例
Dec 10 Python
详解基于python-django框架的支付宝支付案例
Sep 23 Python
python应用文件读取与登录注册功能
Sep 23 Python
pygame实现非图片按钮效果
Oct 29 Python
python创建n行m列数组示例
Dec 02 Python
深入浅析python变量加逗号,的含义
Feb 22 Python
带你学习Python如何实现回归树模型
Jul 16 Python
python批量修改文件名的示例
Sep 27 Python
Python2与Python3的区别实例总结
Apr 17 #Python
详解Python用户登录接口的方法
Apr 17 #Python
详解python中递归函数
Apr 16 #Python
python学习--使用QQ邮箱发送邮件代码实例
Apr 16 #Python
详解Python连接MySQL数据库的多种方式
Apr 16 #Python
详解Python学习之安装pandas
Apr 16 #Python
不归路系列:Python入门之旅-一定要注意缩进!!!(推荐)
Apr 16 #Python
You might like
留言板翻页的实现详解
2006/10/09 PHP
简体中文转换为繁体中文的PHP函数
2006/10/09 PHP
抓取YAHOO股票报价的类
2009/05/15 PHP
apache和php之间协同工作的配置经验分享
2013/04/08 PHP
php经典算法集锦
2015/11/14 PHP
windows下的WAMP环境搭建图文教程(推荐)
2017/07/27 PHP
HTML5如何适配 iPhone IOS 底部黑条
2021/03/09 HTML / CSS
javascript中substr,substring,slice.splice的区别说明
2010/11/25 Javascript
js判断样式className同时增加class或删除class
2013/01/30 Javascript
javascript中对变量类型的判断方法
2015/08/09 Javascript
使用jQuery调用XML实现无刷新即时聊天
2016/08/07 Javascript
Bootstrap按钮组实例详解
2017/07/03 Javascript
vue实现表格增删改查效果的实例代码
2017/07/18 Javascript
vuejs+element-ui+laravel5.4上传文件的示例代码
2017/08/12 Javascript
JS库之Highlight.js的用法详解
2017/09/13 Javascript
在vue项目中安装使用Mint-UI的方法
2017/12/27 Javascript
浅谈PDF.js使用心得
2018/06/07 Javascript
微信小程序车牌号码模拟键盘输入功能的实现代码
2018/11/11 Javascript
vue给对象动态添加属性和值的实例
2019/09/09 Javascript
javascript 数组精简技巧小结
2020/02/26 Javascript
JS数组及对象遍历方法代码汇总
2020/06/16 Javascript
Nodejs环境实现socket通信过程解析
2020/07/03 NodeJs
使用 Python 处理 JSON 格式的数据
2019/07/22 Python
python3实现用turtle模块画一棵随机樱花树
2019/11/21 Python
python多线程实现代码(模拟银行服务操作流程)
2020/01/13 Python
在pytorch中动态调整优化器的学习率方式
2020/06/24 Python
HTML5 Canvas玩转酷炫大波浪进度图效果实例(附demo)
2016/12/14 HTML / CSS
致400米运动员广播稿
2014/02/07 职场文书
中学生学雷锋演讲稿
2014/04/26 职场文书
小学运动会演讲稿
2014/08/25 职场文书
领导干部民主生活会自我剖析材料范文
2014/09/20 职场文书
2014年办公室人员工作总结
2014/12/09 职场文书
医药公司开票员岗位职责
2015/04/15 职场文书
学校教师培训工作总结
2015/10/14 职场文书
python requests模块的使用示例
2021/04/07 Python
python数字图像处理之图像的批量处理
2022/06/28 Python