编程 Python

python爬取豆瓣电影排行榜(requests)的示例代码

Posted in Python onFebruary 18, 2021

'''
爬取豆瓣电影排行榜
设计思路：
       1、先获取电影类型的名字以及特有的编号
       2、将编号向ajax发送get请求获取想要的数据
       3、将数据存放进excel表格中
'''

环境部署：

软件安装：

Python 3.7.6

官网地址：https://www.python.org/

安装地址：https://www.python.org/ftp/python/3.7.6/python-3.7.6-amd64.exe

PyCharm 2020.2.2 x64 位

官网地址：https://www.jetbrains.com/pycharm/download/#section=windows

参考教程：https://3water.com/article/197466.htm

模块安装(打开cmd或powershell进行下面的命令安装【前提需要有python】)：安装requests模块、lxml模块（发送请求，xpath获取数据）

pip install requests #(主要用来发送请求，获取响应)

pip install lxml #(主要引用里面的etree里面的xpath方法)

安装xpathhelper插件（可以在网页中复制相应的节点xpath路径并查看）

1、下载地址：

链接: https://pan.baidu.com/s/1zfpnrnFtZaxrgqrUX9y5Yg

提取码: fmsu

2、window平台下：
    · 把文件的后缀名crx改为rar，然后解压到同名文件夹中
    · 打开谷歌的扩展程序 ——> 进入到管理管理扩展程序中
    · 打开开发者模式，通过加载已解压的扩展程序，将插件导入
3、ios平台下：
    · 直接将crx文件拖进扩展程序中

安装xlwt模块（将数据存放进excel表格）

pip install xlwt

项目中需要引入的模块：

import requests
from lxml import etree
import xlwt
import time

使用流程：

在列表中填写所需要获取的电影类型名
输入开始时获取的start以及获取多少数据的limit
填写所要输出的excel表格的名字(代码中默认douban.xls)
程序运行结束后打开excel验证数据是否获取
观察自己所需的数据

完整代码：

# encoding=utf8
# 编程者 ：Alvin
'''
 爬取豆瓣电影排行榜
 设计思路：
 1、先获取电影类型的名字以及特有的编号
 2、将编号向ajax发送get请求获取想要的数据
 3、将数据存放进excel表格中
'''
import requests
from lxml import etree
import xlwt
import time

class DouBan():
 # 初始化数据，获取最外层的数据
 def __init__(self, name_list):
 self.headers = {
 "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.3",
 "Connection": "close",
 "Referer": "https://movie.douban.com/"
 }
 # 获取最外层的数据，并拿到url中的type中的name 和 类型
 self.url = 'https://movie.douban.com/chart'
 self.dydata_list = []
 # 电影的类型名
 self.name_list = name_list
 # 实例化excel表格对象
 self.wb = xlwt.Workbook()


 # 通过电影的类型名字获取对应的类型号
 def get_data_typenum(self, name):
 for data in self.dydata_list:
 if data['name'] == name:
 typenum =data['dytype']
 else:
 continue
 return typenum

 # 获取数据
 def get_data_p1(self):
 response = requests.get(self.url , headers = self.headers)
 # 判断长度是否足够大
 # print(len(response.content.decode()))
 return response.content.decode()

 # 获取下一层的页面数据
 def get_data_p2(self, typenum, num, limit):
 url = 'https://movie.douban.com/j/chart/top_list'
 params = {
 'type': typenum,
 'interval_id': '100:90',
 'action':'',
 'start': num*20,
 'limit': limit
 }
 response = requests.get(url,params=params,headers=self.headers)
 # print(response.json())
 return response.json()

 # 处理数据
 def data_parse_p1(self, data):
 html = etree.HTML(data)
 data_list = html.xpath('//div[@class="types"]/span/a/@href')
 # 用于收集类型名字
 name_list = []
 dytype_list = []
 # 用于收集类型号
 for data in data_list:
 name = data.split('?')[-1].split('&')[0].split('=')[-1]
 dytype = data.split('?')[-1].split('&')[1].split('=')[-1]
 name_list.append(name)
 dytype_list.append(dytype)
 for (name,dytype) in zip(name_list,dytype_list):
 dydict = {}
 dydict['name'] = name
 dydict['dytype'] = dytype
 self.dydata_list.append(dydict)
 # print(self.dydata_list)
 return self.dydata_list

 def data_parse_p2(self, data_list,name):
 print(len(data_list))
 douban = self.wb.add_sheet(name)
 style = xlwt.XFStyle() # 初始化一个style对象，用来保存excel的样式
 font = xlwt.Font() # 创建一个font对象，用来保存对字体进行的操作
 font.name = '微软雅黑' # 字体设置为'微软雅黑'
 font.bold = True # 字体加粗
 al = xlwt.Alignment() # 创建一个对齐对啊想，用来改变文本内容的字体
 style.font = font # 将字体信息保存到style对象中
 style.alignment = al

 # 水平对齐方式、水平居中
 al.horz = 0x02
 # 垂直对齐方式、垂直居中
 al.vert = 0x01

 # 电影的标题
 douban.col(0).width = 256 * 25
 # 电影演员的名字
 douban.col(1).width = 256 * 50
 # 电影上映的年份
 douban.col(2).width = 256 * 15
 # 电影上映的国家
 douban.col(3).width = 256 * 15
 # 电影的标签
 douban.col(4).width = 256 * 20
 # 电影的评分
 douban.col(5).width = 256 * 8
 # 豆瓣中该电影的页面链接
 douban.col(6).width = 256 * 40

 douban.write(0, 0, '电影标题', style)
 douban.write(0, 1, '电影演员名字', style)
 douban.write(0, 2, '电影上映年份', style)
 douban.write(0, 3, '电影上映国家', style)
 douban.write(0, 4, '电影标签', style)
 douban.write(0, 5, '电影评分', style)
 douban.write(0, 6, '豆瓣中该电影的页面链接', style)
 row = 1
 for data in data_list:
 # 电影的标题
 title = data['title']
 # 电影演员的名字
 actors = data['actors']
 # 电影上映的年份
 release_date = data['release_date']
 # 电影上映的国家
 regions = data['regions'][0]
 # 电影的标签
 types = data['types']
 # 电影评分
 score = data['score']
 # 豆瓣查看的链接
 link = data['url']
 douban.write(row, 0, title)
 douban.write(row, 1, actors)
 douban.write(row, 2, release_date)
 douban.write(row, 3, regions)
 douban.write(row, 4, types)
 douban.write(row, 5, score)
 douban.write(row, 6, link)
 row += 1
 self.wb.save('douban.xls')


 # 运行程序
 def run(self, num, limit):
 # 获取第一层中的所需要的类型名字和数字
 self.data_parse_p1(self.get_data_p1())
 for name in self.name_list:
 typenum = self.get_data_typenum(name)
 # 向指定的分类进行数据的访问
 data_list = self.get_data_p2(typenum,num,limit)
 # 对获取的数据进行解析保存
 self.data_parse_p2(data_list,name)


if __name__ == '__main__':
 # 需要查看的类型
 douban = DouBan(['喜剧','悬疑','惊悚'])
 # 需要查看的开始值start，以及需要查看的数量limit
 douban.run(0,100)
 time.sleep(2)

效果图pycharm 运行台

python爬取豆瓣电影排行榜(requests)的示例代码

excel表格显示

python爬取豆瓣电影排行榜(requests)的示例代码

本案例笔者的想法是打算先获取到每一个电影类型的前100个数据，然后在excel表格中进行评分的筛选，最后观察现阶段某个电影类型中哪些电影在豆瓣电影中评分较高的

到此这篇关于python爬取豆瓣电影排行榜(requests)的文章就介绍到这了,更多相关python爬取豆瓣电影内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

python爬取豆瓣电影排行榜(requests)的示例代码

- Author -

Alvin_轩

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python集合类型用法分析

Apr 08 Python

Python3.6简单反射操作示例

Jun 14 Python

python抓取搜狗微信公众号文章

Apr 01 Python

彻底理解Python中的yield关键字

Apr 01 Python

Python3.5内置模块之random模块用法实例分析

Apr 26 Python

python 猴子补丁(monkey patch)

Jun 26 Python

在SQLite-Python中实现返回、查询中文字段的方法

Jul 17 Python

python实现WebSocket服务端过程解析

Oct 18 Python

python绘制BA无标度网络示例代码

Nov 21 Python

python判断无向图环是否存在的示例

Nov 22 Python

Python自动化测试笔试面试题精选

Mar 12 Python

Python PyQt5模块实现窗口GUI界面代码实例

May 12 Python

python 爬取腾讯视频评论的实现步骤

Feb 18 #Python

Python之qq自动发消息的示例代码

Feb 18 #Python

Python对excel的基本操作方法

Feb 18 #Python

No module named ‘win32gui‘ 的解决方法(踩坑之旅)

Feb 18 #Python

Python操作Excel的学习笔记

Feb 18 #Python

手把手教你用Django执行原生SQL的方法

Feb 18 #Python

python中封包建立过程实例

Feb 18 #Python

You might like

php的hash算法介绍

2014/02/13 PHP

PHP连接SQL Server的方法分析【基于thinkPHP5.1框架】

2019/05/06 PHP

laravel框架之数据库查出来的对象实现转化为数组

2019/10/23 PHP

PHP const定义常量及global定义全局常量实例解析

2020/05/28 PHP

ExtJS 简介让你知道extjs是什么

2008/12/29 Javascript

JQuery入门——用映射方式绑定不同事件应用示例

2013/02/05 Javascript

JavaScript中访问节点对象的方法有哪些如何使用

2013/09/24 Javascript

javascript 弹出的窗口返回值给父窗口具体实现

2013/11/23 Javascript

express的中间件bodyParser详解

2014/12/04 Javascript

js对象的复制继承实例

2015/01/10 Javascript

jQuery的css() 方法使用指南

2015/05/03 Javascript

js正则表达式replace替换变量方法

2016/05/21 Javascript

ES6记录异步函数的执行时间详解

2016/08/31 Javascript

微信小程序 wxapp地图 map详解

2016/10/31 Javascript

Vue利用History记录上一页面的数据方法实例

2018/11/02 Javascript

Node使用Nodemailer发送邮件的方法实现

2020/02/24 Javascript

Python中使用PIPE操作Linux管道

2015/02/04 Python

Python的Flask开发框架简单上手笔记

2015/11/16 Python

Python爬取三国演义的实现方法

2016/09/12 Python

Python实现计算对象的内存大小示例

2019/07/10 Python

利用Python复制文件的9种方法总结

2019/09/02 Python

django3.02模板中的超链接配置实例代码

2020/02/04 Python

Python读取多列数据以及用matplotlib制作图表方法实例

2020/09/23 Python

python实现自动打卡的示例代码

2020/10/10 Python

PyCharm 2020.2.2 x64 下载并安装的详细教程

2020/10/15 Python

巧用 CSS3的webkit-box-reflect 倒影实现各类动效

2021/03/05 HTML / CSS

W Concept美国：精选全球独立设计师

2017/02/22 全球购物

总经理助理岗位职责

2013/11/08 职场文书

《孔子拜师》教学反思

2014/02/24 职场文书

艺术教育实施方案

2014/05/03 职场文书

刑事和解协议书范本

2014/11/19 职场文书

大连星海广场导游词

2015/02/10 职场文书

学校端午节活动总结

2015/02/11 职场文书

保姆聘用合同

2015/09/21 职场文书

linux下导入、导出mysql数据库命令的实现方法

2021/05/26 MySQL

Python办公自动化之教你如何用Python将任意文件转为PDF格式

2021/06/28 Python