Python爬虫自动化爬取b站实时弹幕实例方法


Posted in Python onJanuary 26, 2021

最近央视新闻记者王冰冰以清除可爱和专业的新闻业务水平深受众多网友喜爱,b站也有很多up主剪辑了关于王冰冰的视频。我们都是知道b站是一个弹幕网站,那你知道如何爬取b站实时弹幕吗?本文以王冰冰视频弹幕为例,向大家介绍Python爬虫实现自动化爬取b站实时弹幕的过程。

1、导入需要的库

import jieba # 分词
from wordcloud import WordCloud # 词云
from PIL import Image # 图片处理
import numpy as np # 图片处理
import matplotlib.pyplot as plt # 画图

2、 jieba分词

所谓的分词就是将一句话分成一个或几个词语的形式,

分词代码

# 读取停用词库,注意编码应为‘utf8'
f = open('小夜斗的停用词表.txt', encoding='utf8')
stopwords = f.read().split('\n')
print(stopwords) # 打印停用词
f.close() # 关闭停用词文件

3、打印出的为一个停用词列表

with open("冰冰vlog2.txt", "r", encoding='utf8') as fp:
text = fp.read()

4、读取冰冰弹幕数据文件的操作,将其保存到text变量中

segs = jieba.cut(text) # 进行jieba分词
mytext_list = [] # 构建一个容纳过滤掉停用词的冰冰弹幕数据文件
# 文本清洗
for seg in segs: # 循环遍历每一个分词文本
  # 如果该词不属于停用词表 并且非空 长度不为1
  if seg not in stopwords and seg != "" and len(seg) != 1:
    # 将该词语添加到mytext_list列表中
    mytext_list.append(seg.replace(" ", ""))
print(mytext_list) # 打印过滤后的冰冰弹幕数据

5、获取过滤停用词后的冰冰弹幕数据

cloud_text = ",".join(mytext_list) # 连接列表里面的词语
print(cloud_text)

到此这篇关于Python爬虫自动化爬取b站实时弹幕实例方法的文章就介绍到这了,更多相关Python爬虫如何实现自动化爬取b站实时弹幕内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python解析最简单的验证码
Jan 07 Python
分享给Python新手们的几道简单练习题
Sep 21 Python
Zookeeper接口kazoo实例解析
Jan 22 Python
tensorflow 用矩阵运算替换for循环 用tf.tile而不写for的方法
Jul 27 Python
python中scikit-learn机器代码实例
Aug 05 Python
Python Pandas中根据列的值选取多行数据
Jul 08 Python
pytorch 使用单个GPU与多个GPU进行训练与测试的方法
Aug 19 Python
Python实现二叉树的最小深度的两种方法
Sep 30 Python
使用jupyter Nodebook查看函数或方法的参数以及使用情况
Apr 14 Python
python支持多继承吗
Jun 19 Python
Python将CSV文件转化为HTML文件的操作方法
Jun 30 Python
基于Python和openCV实现图像的全景拼接详细步骤
Oct 05 Python
python 实现的车牌识别项目
Jan 25 #Python
Python实现给PDF添加水印的方法
Jan 25 #Python
2021年值得向Python开发者推荐的VS Code扩展插件
Jan 25 #Python
numba提升python运行速度的实例方法
Jan 25 #Python
python中K-means算法基础知识点
Jan 25 #Python
python中HTMLParser模块知识点总结
Jan 25 #Python
pycharm配置QtDesigner的超详细方法
Jan 25 #Python
You might like
Protoss兵种对照表
2020/03/14 星际争霸
php绘制一条直线的方法
2015/01/24 PHP
在CentOS系统上从零开始搭建WordPress博客的全流程记录
2016/04/21 PHP
PHP的静态方法与普通方法用法实例分析
2019/09/26 PHP
PHP扩展安装方法步骤解析
2020/11/24 PHP
如何解决Jquery库及其他库之间的$命名冲突
2013/09/15 Javascript
javascript从image转换为base64位编码的String
2014/07/29 Javascript
jQuery实现精美的多级下拉菜单特效
2015/03/14 Javascript
详解JavaScript中的客户端消息框架设计原理
2015/06/24 Javascript
js和jquery实现监听键盘事件示例代码
2020/06/24 Javascript
Angular 路由route实例代码
2016/07/12 Javascript
jQuery EasyUI tree增加搜索功能的实现方法
2017/04/27 jQuery
配置nodejs环境的方法
2017/05/13 NodeJs
ES7中利用Await减少回调嵌套的方法详解
2017/11/01 Javascript
基于Vue、Vuex、Vue-router实现的购物商城(原生切换动画)效果
2018/01/09 Javascript
Angular17之Angular自定义指令详解
2018/01/21 Javascript
Vue 父子组件的数据传递、修改和更新方法
2018/03/01 Javascript
微信小程序实现购物页面左右联动
2019/02/15 Javascript
详解Vue之计算属性
2020/06/20 Javascript
浅谈es6中的元编程
2020/12/01 Javascript
用Python的SimPy库简化复杂的编程模型的介绍
2015/04/13 Python
python生成excel的实例代码
2017/11/08 Python
Python读取MRI并显示为灰度图像实例代码
2018/01/03 Python
Python如何生成树形图案
2018/01/03 Python
python3模拟实现xshell远程执行liunx命令的方法
2019/07/12 Python
django drf框架中的user验证以及JWT拓展的介绍
2019/08/12 Python
python网络爬虫 Scrapy中selenium用法详解
2019/09/28 Python
会展策划与管理专业大学生职业生涯规划
2014/02/07 职场文书
鼓励运动员的广播稿
2014/02/08 职场文书
读书活动总结
2014/04/28 职场文书
党员教师四风问题对照检查材料
2014/09/26 职场文书
机动车交通事故协议书
2015/01/29 职场文书
幼儿园园长个人总结
2015/03/02 职场文书
2015年反腐倡廉工作总结
2015/05/14 职场文书
社会实践心得体会范文
2016/01/14 职场文书
Win11安装升级时提示“该电脑必须支持安全启动”
2022/04/19 数码科技