编程 Python

使用Python抓取豆瓣影评数据的方法

Posted in Python onOctober 17, 2018

抓取豆瓣影评评分

正常的抓取

分析请求的url

https://movie.douban.com/subject/26322642/comments?start=20&limit=20&sort=new_score&status=P&percent_type=

里面有用的也就是start和limit参数，我尝试过修改limit参数，但是没有效果，可以认为是默认的
start参数是用来设置从第几条数据开始查询的

设计查询列表，发现页面中有url中的查询部分，且指向下一个页面

使用Python抓取豆瓣影评数据的方法

于是采用下面的代码进行判断是否还有下一个页面

if next_url:
    visit_URL('https://movie.douban.com/subject/24753477/comments'+next_url)

用requests发送请求，beautifulsoup进行网页解析

使用Python抓取豆瓣影评数据的方法

把数据写入txt

import requests
from bs4 import BeautifulSoup
first_url = 'https://movie.douban.com/subject/26322642/comments?status=P'
# 请求头部
headers = {
  'Host':'movie.douban.com',
  'Referer':'https://movie.douban.com/subject/24753477/?tag=%E7%83%AD%E9%97%A8&from=gaia_video',
  'Upgrade-Insecure-Requests':'1',
  'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36',
}
def visit_URL(url):
  res = requests.get(url=url,headers=headers)
  soup = BeautifulSoup(res.content,'html5lib')
  div_comment = soup.find_all('div',class_='comment-item') # 找到所有的评论模块
  for com in div_comment:
    username = com.find('div',class_='avatar').a['title']
    comment_time = com.find('span',class_='comment-time')['title']
    votes = com.find('span',class_='votes').get_text()
    comment = com.p.get_text()
    with open('1.txt','a',encoding='utf8') as file:
      file.write('评论人：'+username+'\n')
      file.write('评论时间：'+comment_time+'\n')
      file.write('支持人数：'+votes+'\n')
      file.write('评论内容：'+comment+'\n')
  # 检查是否有下一页
  next_url = soup.find('a',class_='next')
  if next_url:
    temp = next_url['href'].strip().split('&') # 获取下一个url
    next_url = ''.join(temp)
    print(next_url)
  # print(next_url)
  if next_url:
    visit_URL('https://movie.douban.com/subject/24753477/comments'+next_url)
if __name__ == '__main__':
  visit_URL(first_url)

模仿移动端

很多时候模仿移动端获得的页面会比PC端的简单，更加容易解析，这次模拟移动端，发现可以直接访问api获取json格式的数据，nice!

使用Python抓取豆瓣影评数据的方法

至于怎么模拟移动端只需要将user-agent修改为移动端的头

useragents = [
  "Mozilla/5.0 (iPhone; CPU iPhone OS 9_2 like Mac OS X) AppleWebKit/601.1 (KHTML, like Gecko) CriOS/47.0.2526.70 Mobile/13C71 Safari/601.1.46",
  "Mozilla/5.0 (Linux; U; Android 4.4.4; Nexus 5 Build/KTU84P) AppleWebkit/534.30 (KHTML, like Gecko) Version/4.0 Mobile Safari/534.30",
  "Mozilla/5.0 (compatible; MSIE 9.0; Windows Phone OS 7.5; Trident/5.0; IEMobile/9.0)"

怎么获取这些头部？用火狐的插件user-agent switcher

之后的操作就是解析json

import random
import requests
import json
import time
first_url = 'https://m.douban.com/rexxar/api/v2/tv/26322642/interests?count=20&order_by=hot&start=0&ck=dNhr&for_mobile=1'
url = 'https://m.douban.com/rexxar/api/v2/tv/26322642/interests'
# 移动端头部信息
useragents = [
  "Mozilla/5.0 (iPhone; CPU iPhone OS 9_2 like Mac OS X) AppleWebKit/601.1 (KHTML, like Gecko) CriOS/47.0.2526.70 Mobile/13C71 Safari/601.1.46",
  "Mozilla/5.0 (Linux; U; Android 4.4.4; Nexus 5 Build/KTU84P) AppleWebkit/534.30 (KHTML, like Gecko) Version/4.0 Mobile Safari/534.30",
  "Mozilla/5.0 (compatible; MSIE 9.0; Windows Phone OS 7.5; Trident/5.0; IEMobile/9.0)"
]
def visit_URL(i):
  print(">>>>>",i)
  # 请求头部
  headers = {
    'Host':'m.douban.com',
    'Upgrade-Insecure-Requests':'1',
    'User-Agent':random.choice(useragents)
  }
  params = {
    'count':'50',
    'order_by':'hot',
    'start':str(i),
    'for_mobile':'1',
    'ck':'dNhr'
  }
  res = requests.get(url=url,headers=headers,params=params)
  res_json = res.json()
  interests = res_json['interests']
  print(len(interests))
  for item in interests:
    with open('huge.txt','a',encoding='utf-8') as file:
      if item['user']:
        if item['user']['name']:
          file.write('评论用户:'+item['user']['name']+'\n')
      else:
        file.write('评论用户:none\n')
      if item['create_time']:
        file.write('评论时间:'+item['create_time']+'\n')
      else:
        file.write('评论时间:none\n')
      if item['comment']:
        file.write('评论内容:'+item['comment']+'\n')
      else:
        file.write('评论内容:none\n')
      if item['rating']:
        if item['rating']['value']:
          file.write('对电影的评分:'+str(item['rating']['value'])+'\n\n')
      else:
        file.write('对电影的评分:none\n')
if __name__ == '__main__':
  for i in range(0,66891,20):
    # time.sleep(2)
    visit_URL(i)

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

使用Python抓取豆瓣影评数据的方法

- Author -

no-96

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python爬虫抓取手机APP的传输数据

Jan 22 Python

Python PyQt5标准对话框用法示例

Aug 23 Python

详解Python:面向对象编程

Apr 10 Python

Python OpenCV中的resize()函数的使用

Jun 20 Python

pytorch 在网络中添加可训练参数,修改预训练权重文件的方法

Aug 17 Python

Python numpy数组转置与轴变换

Nov 15 Python

python paramiko远程服务器终端操作过程解析

Dec 14 Python

Pyspark读取parquet数据过程解析

Mar 27 Python

Docker如何部署Python项目的实现详解

Oct 26 Python

Python基于execjs运行js过程解析

Nov 27 Python

浅析python实现动态规划背包问题

Dec 31 Python

PyQt5实现多张图片显示并滚动

Jun 11 Python

python 对key为时间的dict排序方法

Oct 17 #Python

解决python中os.listdir()函数读取文件夹下文件的乱序和排序问题

Oct 17 #Python

通过python将大量文件按修改时间分类的方法

Oct 17 #Python

python检测文件夹变化,并拷贝有更新的文件到对应目录的方法

Oct 17 #Python

python按时间排序目录下的文件实现方法

Oct 17 #Python

python3 读取Excel表格中的数据

Oct 16 #Python

python在html中插入简单的代码并加上时间戳的方法

Oct 16 #Python

You might like

php导出word格式数据的代码实例

2013/11/25 PHP

ThinkPHP的常用配置选项汇总

2016/03/24 PHP

深入剖析浏览器退出之后php还会继续执行么

2016/05/17 PHP

使用composer安装使用thinkphp6.0框架问题【视频教程】

2019/10/01 PHP

PHP如何通过date() 函数格式化显示时间

2020/11/13 PHP

ext jquery 简单比较

2010/04/07 Javascript

动态加载图片路径保持JavaScript控件的相对独立性

2010/09/03 Javascript

jQuery ready函数滥用分析

2011/02/16 Javascript

jQuery中closest()函数用法实例

2015/01/07 Javascript

纯JavaScript基于notie.js插件实现消息提示特效

2016/01/18 Javascript

JS操作xml对象转换为Json对象示例

2017/03/25 Javascript

Gulp实现静态网页模块化的方法详解

2018/01/09 Javascript

详解vue引入子组件方法

2019/02/12 Javascript

详解vue.js移动端配置flexible.js及注意事项

2019/04/10 Javascript

js消除图片小游戏代码

2019/12/11 Javascript

[06:40]2014DOTA2西雅图国际邀请赛 DK战队巡礼

2014/07/07 DOTA

详解在Python程序中自定义异常的方法

2015/10/16 Python

基于Python和Scikit-Learn的机器学习探索

2017/10/16 Python

Python设计模式之命令模式简单示例

2018/01/10 Python

Python3 jupyter notebook 服务器搭建过程

2018/11/30 Python

Python绘图Matplotlib之坐标轴及刻度总结

2019/06/28 Python

python脚本当作Linux中的服务启动实现方法

2019/06/28 Python

python PyAutoGUI 模拟鼠标键盘操作和截屏功能

2019/08/04 Python

python shell命令行中import多层目录下的模块操作

2020/03/09 Python

python3的pip路径在哪

2020/06/23 Python

HTML如何让IMG自动适应DIV容器大小的实现方法

2020/02/25 HTML / CSS

英国建筑用品在线：Building Supplies Online（BSO）

2018/04/30 全球购物

怎样从/向数据文件读/写结构

2014/11/23 面试题

信访工作者先进事迹

2014/01/17 职场文书

小学学雷锋活动总结

2014/04/25 职场文书

关于奉献的演讲稿

2014/05/21 职场文书

责任书范本

2014/08/25 职场文书

部队2014年终工作总结

2014/11/27 职场文书

埃及王子观后感

2015/06/16 职场文书

2016年过年放假安排通知

2015/08/18 职场文书

《杜鹃的婚约》OP主题曲「凸凹」无字幕影像公开

2022/04/08 日漫