Python爬虫自动化爬取b站实时弹幕实例方法


Posted in Python onJanuary 26, 2021

最近央视新闻记者王冰冰以清除可爱和专业的新闻业务水平深受众多网友喜爱,b站也有很多up主剪辑了关于王冰冰的视频。我们都是知道b站是一个弹幕网站,那你知道如何爬取b站实时弹幕吗?本文以王冰冰视频弹幕为例,向大家介绍Python爬虫实现自动化爬取b站实时弹幕的过程。

1、导入需要的库

import jieba # 分词
from wordcloud import WordCloud # 词云
from PIL import Image # 图片处理
import numpy as np # 图片处理
import matplotlib.pyplot as plt # 画图

2、 jieba分词

所谓的分词就是将一句话分成一个或几个词语的形式,

分词代码

# 读取停用词库,注意编码应为‘utf8'
f = open('小夜斗的停用词表.txt', encoding='utf8')
stopwords = f.read().split('\n')
print(stopwords) # 打印停用词
f.close() # 关闭停用词文件

3、打印出的为一个停用词列表

with open("冰冰vlog2.txt", "r", encoding='utf8') as fp:
text = fp.read()

4、读取冰冰弹幕数据文件的操作,将其保存到text变量中

segs = jieba.cut(text) # 进行jieba分词
mytext_list = [] # 构建一个容纳过滤掉停用词的冰冰弹幕数据文件
# 文本清洗
for seg in segs: # 循环遍历每一个分词文本
  # 如果该词不属于停用词表 并且非空 长度不为1
  if seg not in stopwords and seg != "" and len(seg) != 1:
    # 将该词语添加到mytext_list列表中
    mytext_list.append(seg.replace(" ", ""))
print(mytext_list) # 打印过滤后的冰冰弹幕数据

5、获取过滤停用词后的冰冰弹幕数据

cloud_text = ",".join(mytext_list) # 连接列表里面的词语
print(cloud_text)

到此这篇关于Python爬虫自动化爬取b站实时弹幕实例方法的文章就介绍到这了,更多相关Python爬虫如何实现自动化爬取b站实时弹幕内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
详解Python多线程Selenium跨浏览器测试
Apr 01 Python
Python使用微信SDK实现的微信支付功能示例
Jun 30 Python
Python中read()、readline()和readlines()三者间的区别和用法
Jul 30 Python
简单谈谈Python的pycurl模块
Apr 07 Python
tensorflow 加载部分变量的实例讲解
Jul 27 Python
Django+Xadmin构建项目的方法步骤
Mar 06 Python
自适应线性神经网络Adaline的python实现详解
Sep 30 Python
Python利用逻辑回归分类实现模板
Feb 15 Python
Python中sys模块功能与用法实例详解
Feb 26 Python
基于Python爬取fofa网页端数据过程解析
Jul 13 Python
Django中session进行权限管理的使用
Jul 09 Python
python接口测试返回数据为字典取值方式
Feb 12 Python
python 实现的车牌识别项目
Jan 25 #Python
Python实现给PDF添加水印的方法
Jan 25 #Python
2021年值得向Python开发者推荐的VS Code扩展插件
Jan 25 #Python
numba提升python运行速度的实例方法
Jan 25 #Python
python中K-means算法基础知识点
Jan 25 #Python
python中HTMLParser模块知识点总结
Jan 25 #Python
pycharm配置QtDesigner的超详细方法
Jan 25 #Python
You might like
php strrpos()与strripos()函数
2013/08/31 PHP
两个php日期控制类实例
2014/12/09 PHP
php函数传值的引用传递注意事项分析
2016/06/25 PHP
Laravel框架实现修改登录和注册接口数据返回格式的方法
2018/08/17 PHP
thinkphp5.1框架容器与依赖注入实例分析
2019/07/23 PHP
javascript实现的网页局布刷新效果
2008/12/01 Javascript
javascript getElementsByTagName
2011/01/31 Javascript
Javascript中的for in循环和hasOwnProperty结合使用
2013/06/05 Javascript
JavaScript对象学习经验整理
2013/10/12 Javascript
ie浏览器使用js导出网页到excel并打印
2014/03/11 Javascript
浅谈javascript的调试
2015/01/28 Javascript
javascript原型模式用法实例详解
2015/06/04 Javascript
jquery表单验证插件formValidator使用方法
2016/04/01 Javascript
Vue.js组件tabs实现选项卡切换效果
2016/12/01 Javascript
用file标签实现多图文件上传预览
2017/02/14 Javascript
JavaScript判断变量名是否存在数组中的实例
2017/12/28 Javascript
详解vue 在移动端体验上的优化解决方案
2019/05/20 Javascript
vue keep-alive列表页缓存 详情页返回上一页不刷新,定位到之前位置
2019/11/26 Javascript
Node.js API详解之 timer模块用法实例分析
2020/05/07 Javascript
vue用ant design中table表格,点击某行时触发的事件操作
2020/10/28 Javascript
[00:19]CN DOTA NEVER DIE!VG夺冠rOtK接受采访
2019/12/23 DOTA
Python基础教程之正则表达式基本语法以及re模块
2016/03/25 Python
python输入错误密码用户锁定实现方法
2017/11/27 Python
Window10下python3.7 安装与卸载教程图解
2019/09/30 Python
Python 中判断列表是否为空的方法
2019/11/24 Python
使用python turtle画高达
2020/01/19 Python
jupyter notebook快速入门及使用详解
2020/11/13 Python
WiFi云数码相框:Nixplay
2018/07/05 全球购物
美国珠宝店:Helzberg Diamonds
2018/10/24 全球购物
Notino匈牙利:购买香水和化妆品
2019/04/12 全球购物
编程实现当输入某产品代码则打印出该产品记录的功能
2014/05/03 面试题
公关关系专员的自我评价分享
2013/11/20 职场文书
师德演讲稿范文
2014/05/06 职场文书
办公室文员岗位职责范本
2014/06/12 职场文书
单位委托书格式范本
2014/09/29 职场文书
群众路线教育实践活动整改方案(个人版)
2014/10/25 职场文书