Python爬虫实战:分析《战狼2》豆瓣影评


Posted in Python onMarch 26, 2018

刚接触python不久,做一个小项目来练练手。前几天看了《战狼2》,发现它在最新上映的电影里面是排行第一的,如下图所示。准备把豆瓣上对它的影评做一个分析。Python爬虫实战:分析《战狼2》豆瓣影评

目标总览

主要做了三件事:

  • 抓取网页数据
  • 清理数据
  • 用词云进行展示

使用的python版本是3.5.

一、抓取网页数据

第一步要对网页进行访问,python中使用的是urllib库。代码如下:

from urllib import request
resp = request.urlopen('https://movie.douban.com/nowplaying/hangzhou/')
html_data = resp.read().decode('utf-8')

其中https://movie.douban.com/nowp…是豆瓣最新上映的电影页面,可以在浏览器中输入该网址进行查看。

html_data是字符串类型的变量,里面存放了网页的html代码。输入print(html_data)可以查看,如下图所示:

Python爬虫实战:分析《战狼2》豆瓣影评

第二步,需要对得到的html代码进行解析,得到里面提取我们需要的数据。在python中使用BeautifulSoup库进行html代码的解析。(注:如果没有安装此库,则使用pip install BeautifulSoup进行安装即可!)BeautifulSoup使用的格式如下:

BeautifulSoup(html,"html.parser")

第一个参数为需要提取数据的html,第二个参数是指定解析器,然后使用find_all()读取html标签中的内容。

但是html中有这么多的标签,该读取哪些标签呢?其实,最简单的办法是我们可以打开我们爬取网页的html代码,然后查看我们需要的数据在哪个html标签里面,再进行读取就可以了。如下图所示:

Python爬虫实战:分析《战狼2》豆瓣影评

从上图中可以看出在div id=”nowplaying“标签开始是我们想要的数据,里面有电影的名称、评分、主演等信息。所以相应的代码编写如下:

from bs4 import BeautifulSoup as bs
soup = bs(html_data, 'html.parser') 
nowplaying_movie = soup.find_all('div', id='nowplaying')
nowplaying_movie_list = nowplaying_movie[0].find_all('li', class_='list-item')

其中nowplaying_movie_list 是一个列表,可以用print(nowplaying_movie_list[0])查看里面的内容,如下图所示:

Python爬虫实战:分析《战狼2》豆瓣影评

在上图中可以看到data-subject属性里面放了电影的id号码,而在img标签的alt属性里面放了电影的名字,因此我们就通过这两个属性来得到电影的id和名称。(注:打开电影短评的网页时需要用到电影的id,所以需要对它进行解析),编写代码如下:

nowplaying_list = [] 
for item in nowplaying_movie_list: 
 nowplaying_dict = {} 
 nowplaying_dict['id'] = item['data-subject'] 
 for tag_img_item in item.find_all('img'):  
  nowplaying_dict['name'] = tag_img_item['alt']  
  nowplaying_list.append(nowplaying_dict)

其中列表nowplaying_list中就存放了最新电影的id和名称,可以使用print(nowplaying_list)进行查看,如下图所示:

Python爬虫实战:分析《战狼2》豆瓣影评

可以看到和豆瓣网址上面是匹配的。这样就得到了最新电影的信息了。接下来就要进行对最新电影短评进行分析了。例如《战狼2》的短评网址为: https://movie.douban.com/subject/26363254/comments?start=0&limit=20

其中26363254就是电影的id,start=0表示评论的第0条评论。

接下来接对该网址进行解析了。打开上图中的短评页面的html代码,我们发现关于评论的数据是在div标签的comment属性下面,如下图所示:

Python爬虫实战:分析《战狼2》豆瓣影评

因此对此标签进行解析,代码如下:

requrl = 'https://movie.douban.com/subject/' + nowplaying_list[0]['id'] + '/comments' +'?' +'start=0' + '&limit=20' 
resp = request.urlopen(requrl) 
html_data = resp.read().decode('utf-8') 
soup = bs(html_data, 'html.parser') 
comment_div_lits = soup.find_all('div', class_='comment')

此时在comment_div_lits 列表中存放的就是div标签和comment属性下面的html代码了。在上图中还可以发现在p标签下面存放了网友对电影的评论,如下图所示:

Python爬虫实战:分析《战狼2》豆瓣影评

因此对comment_div_lits 代码中的html代码继续进行解析,代码如下:

eachCommentList = []; 
for item in comment_div_lits: 
 if item.find_all('p')[0].string is not None: 
  eachCommentList.append(item.find_all('p')[0].string)

使用print(eachCommentList)查看eachCommentList列表中的内容,可以看到里面存里我们想要的影评。如下图所示:

Python爬虫实战:分析《战狼2》豆瓣影评

好的,至此我们已经爬取了豆瓣最近播放电影的评论数据,接下来就要对数据进行清洗和词云显示了。

二、数据清洗

为了方便进行数据进行清洗,我们将列表中的数据放在一个字符串数组中,代码如下:

comments = ''
for k in range(len(eachCommentList)):
 comments = comments + (str(eachCommentList[k])).strip()

使用print(comments)进行查看,如下图所示:

Python爬虫实战:分析《战狼2》豆瓣影评

可以看到所有的评论已经变成一个字符串了,但是我们发现评论中还有不少的标点符号等。这些符号对我们进行词频统计时根本没有用,因此要将它们清除。所用的方法是正则表达式。python中正则表达式是通过re模块来实现的。代码如下:

import re
pattern = re.compile(r'[u4e00-u9fa5]+')
filterdata = re.findall(pattern, comments)
cleaned_comments = ''.join(filterdata)

继续使用print(cleaned_comments)语句进行查看,如下图所示:

Python爬虫实战:分析《战狼2》豆瓣影评

我们可以看到此时评论数据中已经没有那些标点符号了,数据变得“干净”了很多。

因此要进行词频统计,所以先要进行中文分词操作。在这里我使用的是结巴分词。如果没有安装结巴分词,可以在控制台使用pip install jieba进行安装。(注:可以使用pip list查看是否安装了这些库)。代码如下所示:

import jieba #分词包
import pandas as pd 
segment = jieba.lcut(cleaned_comments)
words_df=pd.DataFrame({'segment':segment})

因为结巴分词要用到pandas,所以我们这里加载了pandas包。可以使用words_df.head()查看分词之后的结果,如下图所示:

Python爬虫实战:分析《战狼2》豆瓣影评

从上图可以看到我们的数据中有“看”、“太”、“的”等虚词(停用词),而这些词在任何场景中都是高频时,并且没有实际的含义,所以我们要他们进行清除。

我把停用词放在一个stopwords.txt文件中,将我们的数据与停用词进行比对即可(注:只要在百度中输入stopwords.txt,就可以下载到该文件)。去停用词代码如下代码如下:

stopwords=pd.read_csv("stopwords.txt",index_col=False,quoting=3,sep="t",names=['stopword'], encoding='utf-8')#quoting=3全不引用
words_df=words_df[~words_df.segment.isin(stopwords.stopword)]

继续使用words_df.head()语句来查看结果,如下图所示,停用词已经被出去了。

Python爬虫实战:分析《战狼2》豆瓣影评

接下来就要进行词频统计了,代码如下:

import numpy #numpy计算包
words_stat=words_df.groupby(by=['segment'])['segment'].agg({"计数":numpy.size})
words_stat=words_stat.reset_index().sort_values(by=["计数"],ascending=False)

用words_stat.head()进行查看,结果如下:

Python爬虫实战:分析《战狼2》豆瓣影评

由于我们前面只是爬取了第一页的评论,所以数据有点少,在最后给出的完整代码中,我爬取了10页的评论,所数据还是有参考价值。

三、用词云进行显示

代码如下:

import matplotlib.pyplot as plt
%matplotlib inline
import matplotlib
matplotlib.rcParams['figure.figsize'] = (10.0, 5.0)
from wordcloud import WordCloud#词云包
wordcloud=WordCloud(font_path="simhei.ttf",background_color="white",max_font_size=80) #指定字体类型、字体大小和字体颜色
word_frequence = {x[0]:x[1] for x in words_stat.head(1000).values}
word_frequence_list = []
for key in word_frequence:
 temp = (key,word_frequence[key])
 word_frequence_list.append(temp)
wordcloud=wordcloud.fit_words(word_frequence_list)
plt.imshow(wordcloud)

其中simhei.ttf使用来指定字体的,可以在百度上输入simhei.ttf进行下载后,放入程序的根目录即可。显示的图像如下:

Python爬虫实战:分析《战狼2》豆瓣影评

到此为止,整个项目的介绍就结束了。由于自己也还是个初学者,接触python不久,代码写的并不好。而且第一次写技术博客,表达的有些冗余,请大家多多包涵,有不对的地方,请大家批评指正。以后我也会将自己做的小项目以这种形式写在博客上和大家一起交流!最后贴上完整的代码。

完整代码

#coding:utf-8
__author__ = 'hang'
import warnings
warnings.filterwarnings("ignore")
import jieba #分词包
import numpy #numpy计算包
import codecs #codecs提供的open方法来指定打开的文件的语言编码,它会在读取的时候自动转换为内部unicode 
import re
import pandas as pd 
import matplotlib.pyplot as plt
from urllib import request
from bs4 import BeautifulSoup as bs
%matplotlib inline
import matplotlib
matplotlib.rcParams['figure.figsize'] = (10.0, 5.0)
from wordcloud import WordCloud#词云包
#分析网页函数
def getNowPlayingMovie_list(): 
 resp = request.urlopen('https://movie.douban.com/nowplaying/hangzhou/')  
 html_data = resp.read().decode('utf-8') 
 soup = bs(html_data, 'html.parser') 
 nowplaying_movie = soup.find_all('div', id='nowplaying')  
 nowplaying_movie_list = nowplaying_movie[0].find_all('li', class_='list-item') 
 nowplaying_list = [] 
 for item in nowplaying_movie_list:  
  nowplaying_dict = {}  
  nowplaying_dict['id'] = item['data-subject']  
  for tag_img_item in item.find_all('img'):   
   nowplaying_dict['name'] = tag_img_item['alt']   
   nowplaying_list.append(nowplaying_dict) 
 return nowplaying_list
#爬取评论函数
def getCommentsById(movieId, pageNum): 
 eachCommentList = []; 
 if pageNum>0: 
   start = (pageNum-1) * 20 
 else: 
  return False 
 requrl = 'https://movie.douban.com/subject/' + movieId + '/comments' +'?' +'start=' + str(start) + '&limit=20' 
 print(requrl)
 resp = request.urlopen(requrl) 
 html_data = resp.read().decode('utf-8') 
 soup = bs(html_data, 'html.parser') 
 comment_div_lits = soup.find_all('div', class_='comment') 
 for item in comment_div_lits: 
  if item.find_all('p')[0].string is not None:  
   eachCommentList.append(item.find_all('p')[0].string)
 return eachCommentList
def main():
 #循环获取第一个电影的前10页评论
 commentList = []
 NowPlayingMovie_list = getNowPlayingMovie_list()
 for i in range(10): 
  num = i + 1 
  commentList_temp = getCommentsById(NowPlayingMovie_list[0]['id'], num)
  commentList.append(commentList_temp)
 #将列表中的数据转换为字符串
 comments = ''
 for k in range(len(commentList)):
  comments = comments + (str(commentList[k])).strip()
 #使用正则表达式去除标点符号
 pattern = re.compile(r'[u4e00-u9fa5]+')
 filterdata = re.findall(pattern, comments)
 cleaned_comments = ''.join(filterdata)
 #使用结巴分词进行中文分词
 segment = jieba.lcut(cleaned_comments)
 words_df=pd.DataFrame({'segment':segment})
 #去掉停用词
 stopwords=pd.read_csv("stopwords.txt",index_col=False,quoting=3,sep="t",names=['stopword'], encoding='utf-8')#quoting=3全不引用
 words_df=words_df[~words_df.segment.isin(stopwords.stopword)]
 #统计词频
 words_stat=words_df.groupby(by=['segment'])['segment'].agg({"计数":numpy.size})
 words_stat=words_stat.reset_index().sort_values(by=["计数"],ascending=False)
 #用词云进行显示
 wordcloud=WordCloud(font_path="simhei.ttf",background_color="white",max_font_size=80)
 word_frequence = {x[0]:x[1] for x in words_stat.head(1000).values}
 word_frequence_list = []
 for key in word_frequence:
  temp = (key,word_frequence[key])
  word_frequence_list.append(temp)
 wordcloud=wordcloud.fit_words(word_frequence_list)
 plt.imshow(wordcloud)
#主函数
main()

结果显示如下:

Python爬虫实战:分析《战狼2》豆瓣影评

上图基本反映了《战狼2》这部电影的情况。

总结

以上所述是小编给大家介绍的Python爬虫实战:分析《战狼2》豆瓣影评,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!

Python 相关文章推荐
Python实现从订阅源下载图片的方法
Mar 11 Python
Python使用minidom读写xml的方法
Jun 03 Python
python爬取各类文档方法归类汇总
Mar 22 Python
django进阶之cookie和session的使用示例
Aug 17 Python
python2与python3共存问题的解决方法
Sep 18 Python
Python第三方库face_recognition在windows上的安装过程
May 03 Python
Ubuntu18.04下python版本完美切换的解决方法
Jun 14 Python
Python利用WMI实现ping命令的例子
Aug 14 Python
docker django无法访问redis容器的解决方法
Aug 21 Python
使用Python制作新型冠状病毒实时疫情图
Jan 28 Python
Python数据分析之绘图和可视化详解
Jun 02 Python
python之json文件转xml文件案例讲解
Aug 07 Python
Python简单实现查找一个字符串中最长不重复子串的方法
Mar 26 #Python
Python实现找出数组中第2大数字的方法示例
Mar 26 #Python
Python实现将json文件中向量写入Excel的方法
Mar 26 #Python
Python元组拆包和具名元组解析实例详解
Mar 26 #Python
基于循环神经网络(RNN)实现影评情感分类
Mar 26 #Python
基于循环神经网络(RNN)的古诗生成器
Mar 26 #Python
python机器学习之随机森林(七)
Mar 26 #Python
You might like
PHP中for循环语句的几种变型
2006/11/26 PHP
PHP定时自动生成静态HTML的实现代码
2010/06/20 PHP
利用Fix Rss Feeds插件修复WordPress的Feed显示错误
2015/12/19 PHP
Windows Server 2008 R2和2012中PHP连接MySQL过慢的解决方法
2016/07/02 PHP
php模仿qq空间或朋友圈发布动态、评论动态、回复评论、删除动态或评论的功能(中)
2017/06/11 PHP
浅谈PHP各环境下的伪静态配置
2019/03/13 PHP
js 函数调用模式小结
2011/12/26 Javascript
如何从jQuery的ajax请求中删除X-Requested-With
2013/12/11 Javascript
js浮点数保留两位小数点示例代码(四舍五入)
2013/12/26 Javascript
jquery插件star-rating.js实现星级评分特效
2015/04/15 Javascript
Treegrid的动态加载实例代码
2016/04/29 Javascript
js前端实现多图图片上传预览的两个方法(推荐)
2016/11/18 Javascript
JavaScript判断浏览器和hack滚动条的写法
2017/07/23 Javascript
详解Nuxt.js Vue服务端渲染摸索
2018/02/08 Javascript
JS模拟实现哈希表及应用详解
2018/05/04 Javascript
Vue.set()动态的新增与修改数据,触发视图更新的方法
2018/09/15 Javascript
微信小程序仿淘宝热搜词在搜索框中轮播功能
2020/01/21 Javascript
[02:14]2016国际邀请赛中国区预选赛Ehome晋级之路
2016/07/01 DOTA
爬山算法简介和Python实现实例
2014/04/26 Python
python multiprocessing多进程变量共享与加锁的实现
2019/10/02 Python
Python元组 tuple的概念与基本操作详解【定义、创建、访问、计数、推导式等】
2019/10/30 Python
python如何写出表白程序
2020/06/01 Python
在Keras中利用np.random.shuffle()打乱数据集实例
2020/06/15 Python
Python3.7安装pyaudio教程解析
2020/07/24 Python
python实现发送带附件的邮件代码分享
2020/09/22 Python
html5 canvas 使用示例
2010/10/22 HTML / CSS
canvas绘制太极图的实现示例
2020/04/29 HTML / CSS
白宫黑市官网:White House Black Market
2016/11/17 全球购物
DNA基因检测和分析:23andMe
2019/05/01 全球购物
linux面试题参考答案(3)
2012/09/13 面试题
晚归检讨书
2014/02/19 职场文书
成龙霸王洗发水广告词
2014/03/14 职场文书
诚信考试承诺书范文
2015/04/29 职场文书
2015迎新晚会开场白
2015/07/17 职场文书
新学期感想
2015/08/10 职场文书
2019垃圾分类宣传口号汇总
2019/08/16 职场文书