python爬取豆瓣电影排行榜(requests)的示例代码


Posted in Python onFebruary 18, 2021

'''
  爬取豆瓣电影排行榜
  设计思路:
       1、先获取电影类型的名字以及特有的编号
       2、将编号向ajax发送get请求获取想要的数据
       3、将数据存放进excel表格中
'''

环境部署:

软件安装:

Python 3.7.6

官网地址:https://www.python.org/

安装地址:https://www.python.org/ftp/python/3.7.6/python-3.7.6-amd64.exe

PyCharm 2020.2.2 x64 位

官网地址:https://www.jetbrains.com/pycharm/download/#section=windows

参考教程:https://3water.com/article/197466.htm

模块安装(打开cmd或powershell进行下面的命令安装【前提需要有python】):安装requests模块、lxml模块(发送请求,xpath获取数据)

pip install requests #(主要用来发送请求,获取响应)

pip install lxml #(主要引用里面的etree里面的xpath方法)

安装xpathhelper插件(可以在网页中复制相应的节点xpath路径并查看)

1、下载地址:

链接: https://pan.baidu.com/s/1zfpnrnFtZaxrgqrUX9y5Yg

提取码: fmsu

2、window平台下:
    · 把文件的后缀名crx改为rar,然后解压到同名文件夹中
    · 打开谷歌的扩展程序 ——> 进入到管理管理扩展程序中
    · 打开开发者模式,通过加载已解压的扩展程序,将插件导入
3、ios平台下:
    · 直接将crx文件拖进扩展程序中

安装xlwt模块(将数据存放进excel表格)

pip install xlwt

项目中需要引入的模块:

import requests
from lxml import etree
import xlwt
import time

使用流程:

  • 在列表中填写所需要获取的电影类型名
  • 输入开始时获取的start以及获取多少数据的limit
  • 填写所要输出的excel表格的名字(代码中默认douban.xls)
  • 程序运行结束后打开excel验证数据是否获取
  • 观察自己所需的数据

完整代码:

# encoding=utf8
# 编程者 :Alvin
'''
 爬取豆瓣电影排行榜
 设计思路:
 1、先获取电影类型的名字以及特有的编号
 2、将编号向ajax发送get请求获取想要的数据
 3、将数据存放进excel表格中
'''
import requests
from lxml import etree
import xlwt
import time

class DouBan():
 # 初始化数据,获取最外层的数据
 def __init__(self, name_list):
 self.headers = {
 "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.3",
 "Connection": "close",
 "Referer": "https://movie.douban.com/"
 }
 # 获取最外层的数据,并拿到url中的type中的name 和 类型
 self.url = 'https://movie.douban.com/chart'
 self.dydata_list = []
 # 电影的类型名
 self.name_list = name_list
 # 实例化excel表格对象
 self.wb = xlwt.Workbook()


 # 通过电影的类型名字获取对应的类型号
 def get_data_typenum(self, name):
 for data in self.dydata_list:
 if data['name'] == name:
 typenum =data['dytype']
 else:
 continue
 return typenum

 # 获取数据
 def get_data_p1(self):
 response = requests.get(self.url , headers = self.headers)
 # 判断长度是否足够大
 # print(len(response.content.decode()))
 return response.content.decode()

 # 获取下一层的页面数据
 def get_data_p2(self, typenum, num, limit):
 url = 'https://movie.douban.com/j/chart/top_list'
 params = {
 'type': typenum,
 'interval_id': '100:90',
 'action':'',
 'start': num*20,
 'limit': limit
 }
 response = requests.get(url,params=params,headers=self.headers)
 # print(response.json())
 return response.json()

 # 处理数据
 def data_parse_p1(self, data):
 html = etree.HTML(data)
 data_list = html.xpath('//div[@class="types"]/span/a/@href')
 # 用于收集类型名字
 name_list = []
 dytype_list = []
 # 用于收集类型号
 for data in data_list:
 name = data.split('?')[-1].split('&')[0].split('=')[-1]
 dytype = data.split('?')[-1].split('&')[1].split('=')[-1]
 name_list.append(name)
 dytype_list.append(dytype)
 for (name,dytype) in zip(name_list,dytype_list):
 dydict = {}
 dydict['name'] = name
 dydict['dytype'] = dytype
 self.dydata_list.append(dydict)
 # print(self.dydata_list)
 return self.dydata_list

 def data_parse_p2(self, data_list,name):
 print(len(data_list))
 douban = self.wb.add_sheet(name)
 style = xlwt.XFStyle() # 初始化一个style对象,用来保存excel的样式
 font = xlwt.Font() # 创建一个font对象,用来保存对字体进行的操作
 font.name = '微软雅黑' # 字体设置为'微软雅黑'
 font.bold = True # 字体加粗
 al = xlwt.Alignment() # 创建一个对齐对啊想,用来改变文本内容的字体
 style.font = font # 将字体信息保存到style对象中
 style.alignment = al

 # 水平对齐方式、水平居中
 al.horz = 0x02
 # 垂直对齐方式、垂直居中
 al.vert = 0x01

 # 电影的标题
 douban.col(0).width = 256 * 25
 # 电影演员的名字
 douban.col(1).width = 256 * 50
 # 电影上映的年份
 douban.col(2).width = 256 * 15
 # 电影上映的国家
 douban.col(3).width = 256 * 15
 # 电影的标签
 douban.col(4).width = 256 * 20
 # 电影的评分
 douban.col(5).width = 256 * 8
 # 豆瓣中该电影的页面链接
 douban.col(6).width = 256 * 40

 douban.write(0, 0, '电影标题', style)
 douban.write(0, 1, '电影演员名字', style)
 douban.write(0, 2, '电影上映年份', style)
 douban.write(0, 3, '电影上映国家', style)
 douban.write(0, 4, '电影标签', style)
 douban.write(0, 5, '电影评分', style)
 douban.write(0, 6, '豆瓣中该电影的页面链接', style)
 row = 1
 for data in data_list:
 # 电影的标题
 title = data['title']
 # 电影演员的名字
 actors = data['actors']
 # 电影上映的年份
 release_date = data['release_date']
 # 电影上映的国家
 regions = data['regions'][0]
 # 电影的标签
 types = data['types']
 # 电影评分
 score = data['score']
 # 豆瓣查看的链接
 link = data['url']
 douban.write(row, 0, title)
 douban.write(row, 1, actors)
 douban.write(row, 2, release_date)
 douban.write(row, 3, regions)
 douban.write(row, 4, types)
 douban.write(row, 5, score)
 douban.write(row, 6, link)
 row += 1
 self.wb.save('douban.xls')


 # 运行程序
 def run(self, num, limit):
 # 获取第一层中的所需要的类型名字和数字
 self.data_parse_p1(self.get_data_p1())
 for name in self.name_list:
 typenum = self.get_data_typenum(name)
 # 向指定的分类进行数据的访问
 data_list = self.get_data_p2(typenum,num,limit)
 # 对获取的数据进行解析保存
 self.data_parse_p2(data_list,name)


if __name__ == '__main__':
 # 需要查看的类型
 douban = DouBan(['喜剧','悬疑','惊悚'])
 # 需要查看的开始值start,以及需要查看的数量limit
 douban.run(0,100)
 time.sleep(2)

效果图pycharm 运行台

python爬取豆瓣电影排行榜(requests)的示例代码

excel表格显示

python爬取豆瓣电影排行榜(requests)的示例代码

本案例笔者的想法是打算先获取到每一个电影类型的前100个数据,然后在excel表格中进行评分的筛选,最后观察现阶段某个电影类型中哪些电影在豆瓣电影中评分较高的

到此这篇关于python爬取豆瓣电影排行榜(requests)的文章就介绍到这了,更多相关python爬取豆瓣电影内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python3实现连接SQLite数据库的方法
Aug 23 Python
python文件读写操作与linux shell变量命令交互执行的方法
Jan 14 Python
详解JavaScript编程中的window与window.screen对象
Oct 26 Python
用python3教你任意Html主内容提取功能
Nov 05 Python
Opencv+Python 色彩通道拆分及合并的示例
Dec 08 Python
Django中间件拦截未登录url实例详解
Sep 03 Python
Python中类似于jquery的pyquery库用法分析
Dec 02 Python
Python读取JSON数据操作实例解析
May 18 Python
python 3.8.3 安装配置图文教程
May 21 Python
Django生成数据库及添加用户报错解决方案
Oct 09 Python
Python激活Anaconda环境变量的详细步骤
Jun 08 Python
如何用六步教会你使用python爬虫爬取数据
Apr 06 Python
python 爬取腾讯视频评论的实现步骤
Feb 18 #Python
Python之qq自动发消息的示例代码
Feb 18 #Python
Python对excel的基本操作方法
Feb 18 #Python
No module named ‘win32gui‘ 的解决方法(踩坑之旅)
Feb 18 #Python
Python操作Excel的学习笔记
Feb 18 #Python
手把手教你用Django执行原生SQL的方法
Feb 18 #Python
python中封包建立过程实例
Feb 18 #Python
You might like
php修改指定文件后缀的方法
2014/09/11 PHP
PHP多进程编程实例
2014/10/15 PHP
ThinkPHP中Widget扩展的两种写法及调用方法详解
2017/05/04 PHP
dojo 之基础篇(三)之向服务器发送数据
2007/03/24 Javascript
Ext.MessageBox工具类简介
2009/12/10 Javascript
js 优化次数过多的循环 考虑到性能问题
2011/03/05 Javascript
解析dom中的children对象数组元素firstChild,lastChild的使用
2013/07/10 Javascript
Javascript Web Slider 焦点图示例源码
2013/10/10 Javascript
屏蔽IE弹出"您查看的网页正在试图关闭窗口,是否关闭此窗口"的方法
2013/12/31 Javascript
JS实现一个列表中包含上移下移删除等功能
2014/09/24 Javascript
JavaScript中length属性的使用方法
2015/06/05 Javascript
基于jquery实现省市联动特效
2015/12/17 Javascript
原生javascript实现解析XML文档与字符串
2016/03/01 Javascript
AngularJS实现使用路由切换视图的方法
2017/01/24 Javascript
AngularJS监听路由变化的方法
2017/03/07 Javascript
关于angular js_$watch监控属性和对象详解
2017/04/24 Javascript
详解微信小程序回到顶部的两种方式
2019/05/09 Javascript
layui table 多行删除(id获取)的方法
2019/09/12 Javascript
vue单文件组件无法获取$refs的问题
2020/06/24 Javascript
Angular+ionic实现折叠展开效果的示例代码
2020/07/29 Javascript
vue+iview实现文件上传
2020/11/17 Vue.js
[02:03]DOTA2亚洲邀请赛 HGT战队出场宣传片
2015/02/07 DOTA
python进阶教程之异常处理
2014/08/30 Python
分析用Python脚本关闭文件操作的机制
2015/06/28 Python
python3批量删除豆瓣分组下的好友的实现代码
2016/06/07 Python
Pyorch之numpy与torch之间相互转换方式
2019/12/31 Python
Python使用sqlite3模块内置数据库
2020/05/07 Python
美国最顶级的精品店之一:Hampden Clothing
2016/12/22 全球购物
Sneaker Studio波兰:购买运动鞋
2018/04/28 全球购物
网上卖盒饭创业计划书范文
2014/02/07 职场文书
关于青春的演讲稿500字
2014/08/22 职场文书
流动人口婚育证明范本
2014/09/26 职场文书
中国文明网向国旗敬礼活动精彩寄语2014
2014/09/27 职场文书
敲诈同学钱财检讨书范文
2014/11/18 职场文书
SpringBoot系列之MongoDB Aggregations用法详解
2022/02/12 MongoDB
一篇文章弄清楚Ajax请求的五个步骤
2022/03/17 Javascript