编程 Python

写一个Python脚本自动爬取Bilibili小视频

Posted in Python onApril 24, 2021

我身边的很多小伙伴们在朋友圈里面晒着出去游玩的照片，简直了，人多的不要不要的，长城被堵到水泄不通，老实人想想啊，既然人这么多，哪都不去也是件好事，没事还可以刷刷 B 站 23333 。这时候老实人也有了一个大胆地想法，能不能让这些在旅游景点排队的小伙伴们更快地打发时间呢？考虑到视频的娱乐性和大众观看量，我决定对 B 站新推出的小视频功能下手，于是我跑到B站去找API接口，果不起然，B站在小视频功能处提供了 API 接口，小伙伴们有福了哟！

B 站小视频网址在这里哦：

http://vc.bilibili.com/p/eden/rank#/?tab=全部

此次实验，我们爬取的是每日的小视频排行榜前 top100

我们该如何去爬取呢？？？

实验环境准备

Chrome 浏览器 (能使用开发者模式的浏览器都行)
Vim (编辑器任选，老实人比较喜欢Vim界面，所以才用这个啦)
Python3 开发环境
Kali Linux (其实随便一个操作系统都行啦)

API 寻找 && 提取

我们通过 F12 打开开发者模式，然后在 Networking -> Name 字段下找到这个链接：

写一个Python脚本自动爬取Bilibili小视频

我们可以看到Request URL这个属性值，我们向下滑动加载视频的过程中，发现只有这段url是不变的。

http://api.vc.bilibili.com/board/v1/ranking/top?

next_offset 会一直变化，我们可以猜测，这个可能就是获取下一个视频序号，我们只需要把这部分参数取出来，把 next_offset 写成变量值，用 JSON 的格式返回到目标网页即可。

写一个Python脚本自动爬取Bilibili小视频

代码实现

我们通过上面的尝试写了段代码，发现 B 站在一定程度上做了反爬虫操作，所以我们需要先获取 headers 信息，否则下载下来的视频是空的，然后定义 params 参数存储 JSON 数据，然后通过 requests.get 去获取其参数值信息，用 JSON 的格式返回到目标网页即可，实现代码如下：

def get_json(url):
    headers = {
        'User-Agent': 
        'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
    }

    params = {
        'page_size': 10,
        'next_offset': str(num),
        'tag': '今日热门',
        'platform': 'pc'
    }

    try:
        html = requests.get(url,params=params,headers=headers)
        return html.json()

    except BaseException:
        print('request error')
        pass

为了能够清楚的看到我们下载的情况，我们折腾了一个下载器上去，实现代码如下：

def download(url,path):
    start = time.time() # 开始时间
    size = 0
    headers = {
        'User-Agent': 
        'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
    }

    response = requests.get(url,headers=headers,stream=True) # stream属性必须带上
    chunk_size = 1024 # 每次下载的数据大小
    content_size = int(response.headers['content-length']) # 总大小
    if response.status_code == 200:
        print('[文件大小]:%0.2f MB' %(content_size / chunk_size / 1024)) # 换算单位
        with open(path,'wb') as file:
            for data in response.iter_content(chunk_size=chunk_size):
                file.write(data)
                size += len(data) # 已下载的文件大小

效果如下：

写一个Python脚本自动爬取Bilibili小视频

将上面的代码进行汇总，整个实现过程如下：

#!/usr/bin/env python
#-*-coding:utf-8-*-
import requests
import random
import time
def get_json(url):
    headers = {
        'User-Agent': 
        'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
    }

    params = {
        'page_size': 10,
        'next_offset': str(num),
        'tag': '今日热门',
        'platform': 'pc'
    }

    try:
        html = requests.get(url,params=params,headers=headers)
        return html.json()

    except BaseException:
        print('request error')
        pass

def download(url,path):
    start = time.time() # 开始时间
    size = 0
    headers = {
        'User-Agent': 
        'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
    }

    response = requests.get(url,headers=headers,stream=True) # stream属性必须带上
    chunk_size = 1024 # 每次下载的数据大小
    content_size = int(response.headers['content-length']) # 总大小
    if response.status_code == 200:
        print('[文件大小]:%0.2f MB' %(content_size / chunk_size / 1024)) # 换算单位
        with open(path,'wb') as file:
            for data in response.iter_content(chunk_size=chunk_size):
                file.write(data)
                size += len(data) # 已下载的文件大小

    

if __name__ == '__main__':
    for i in range(10):
        url = 'http://api.vc.bilibili.com/board/v1/ranking/top?'
        num = i*10 + 1
        html = get_json(url)
        infos = html['data']['items']
        for info in infos:
            title = info['item']['description'] # 小视频的标题
            video_url = info['item']['video_playurl'] # 小视频的下载链接
            print(title)

            # 为了防止有些视频没有提供下载链接的情况
            try:
                download(video_url,path='%s.mp4' %title)
                print('成功下载一个!')
                
            except BaseException:
                print('凉凉,下载失败')
                pass

        time.sleep(int(format(random.randint(2,8)))) # 设置随机等待时间

爬取效果图如下：

写一个Python脚本自动爬取Bilibili小视频

似乎爬取的效果还可以，当然喜欢的朋友不要忘记点赞分享转发哦。

项目链接

Github

以上就是写一个 Python 脚本自动爬取 Bilibili 小视频的详细内容，更多关于Python 爬取 Bilibili 小视频的资料请关注三水点靠木其它相关文章！

写一个Python脚本自动爬取Bilibili小视频

- Author -

IT老实人(

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python写的Socks5协议代理服务器

Aug 06 Python

tensorflow 使用flags定义命令行参数的方法

Apr 23 Python

python2 与 python3 实现共存的方法

Jul 12 Python

Python实现的tcp端口检测操作示例

Jul 24 Python

对python捕获ctrl+c手工中断程序的两种方法详解

Dec 26 Python

对python dataframe逻辑取值的方法详解

Jan 30 Python

ipython和python区别详解

Jun 26 Python

Python安装selenium包详细过程

Jul 23 Python

Pytorch根据layers的name冻结训练方式

Jan 06 Python

django 解决model中类写不到数据库中,数据库无此字段的问题

May 20 Python

Pycharm安装Qt Design快捷工具的详细教程

Nov 18 Python

Python 键盘事件详解

Nov 11 Python

python实现图片批量压缩

Apr 24 #Python

如何用python绘制雷达图

两行代码解决Jupyter Notebook中文不能显示的问题

python基础详解之if循环语句

Apr 24 #Python

解决jupyter notebook图片显示模糊和保存清晰图片的操作

Jupyter notebook 输出部分显示不全的解决方案

Apr 24 #Python

Python opencv缺陷检测的实现及问题解决

You might like

处理php自动反斜杠的函数代码

2010/01/05 PHP

php页码形式分页函数支持静态化地址及ajax分页

2014/03/28 PHP

php使用正则表达式进行字符串搜索的方法

2015/03/23 PHP

PHP htmlspecialchars_decode()函数用法讲解

2019/03/01 PHP

安装PHP扩展时解压官方 tgz 文件后没有configure文件无法进行配置编译的问题

2020/08/26 PHP

javascript读取xml

2006/11/04 Javascript

javascript getElementsByClassName实现代码

2010/10/11 Javascript

javascript椭圆旋转相册实现代码

2012/01/16 Javascript

jquery 实现两级导航菜单附效果图

2014/03/07 Javascript

jquery文档操作wrap()方法实例简述

2015/01/10 Javascript

jQuery实现列表内容的动态载入特效

2015/08/08 Javascript

Jquery修改image的src属性,图片不加载问题的解决方法

2016/05/17 Javascript

简单理解Vue条件渲染

2016/12/03 Javascript

原生JS实现简单放大镜效果

2017/02/08 Javascript

ES6中Set和Map用法实例详解

2020/03/02 Javascript

微信小程序中的上拉、下拉菜单功能

2020/03/13 Javascript

原生JavaScript创建不可变对象的方法简单示例

2020/05/07 Javascript

Angular利用HTTP POST下载流文件的步骤记录

2020/07/26 Javascript

Vue如何将页面导出成PDF文件

2020/08/17 Javascript

详解微信小程序轨迹回放实现及遇到的坑

2021/02/02 Javascript

[01:02]DOTA2辉夜杯决赛日 CDEC.Y对阵VG赛前花絮

2015/12/27 DOTA

Python yield 使用浅析

2015/05/28 Python

python中string模块各属性以及函数的用法介绍

2016/05/30 Python

PyQt5的安装配置过程,将ui文件转为py文件后显示窗口的实例

2019/06/19 Python

python 批量修改 labelImg 生成的xml文件的方法

2019/09/09 Python

python之yield和Generator深入解析

2019/09/18 Python

python GUI库图形界面开发之PyQt5滚动条控件QScrollBar详细使用方法与实例

2020/03/06 Python

Python reques接口测试框架实现代码

2020/07/28 Python

matplotlib部件之矩形选区(RectangleSelector)的实现

2021/02/01 Python

HTML5 video 上传预览图片视频如何设置、预览视频某秒的海报帧

2018/08/28 HTML / CSS

英国文具、办公用品和科技商店：Ryman

2018/09/27 全球购物

优秀的计算机专业求职信范文

2013/12/27 职场文书

学生安全教育材料

2014/02/14 职场文书

有创意的广告词

2014/03/18 职场文书

机关干部四风问题自我剖析及整改措施

2014/10/26 职场文书

Mysql中一千万条数据怎么快速查询

2021/12/06 MySQL