python使用BeautifulSoup与正则表达式爬取时光网不同地区top100电影并对比


Posted in Python onApril 15, 2019

前言

还有一年多就要毕业了,不准备考研的我要着手准备找实习及工作了,所以一直没有更新。

因为Python是自学不久,发现很久不用的话以前学过的很多方法就忘了,今天打算使用简单的BeautifulSoup和一点正则表达式的方法来爬一下top100电影,当然,我们并不仅是使用爬虫爬取数据,这样的话,数据中存在很多的对人有用的信息则被忽略了。所以,爬取数据只是开头,对这些数据根据意愿进行分析,或许能有额外的收获。

注:本人还是Python菜鸟,若有错误欢迎指正

本次我们爬取时光网(http://www.mtime.com/top/movie/top100/)上的电影排名,该网站网页结构较简单,爬取方便。

步骤:

1.爬取时光网top100电影,华语top100电影,日本top100电影,韩国top100电影的排名情况,电影名字,电影简介,评分及评价人数

2. 将爬取数据保存为csv格式后,取出并使用matplotlib绘图库分析对比评论人数一项

 

3.将结果图像保存

步骤一:爬取

python使用BeautifulSoup与正则表达式爬取时光网不同地区top100电影并对比

由上图可知电影信息在 li 节点内,而且发现第一页与后面网页地址不同,需要进行判断。

第一页地址为:http://www.mtime.com/top/movie/top100/

第二页地址为:http://www.mtime.com/top/movie/top100/index-2.html

第三页及后面地址均与第二页相似,仅网址的数字相应增加,所以更改数字即可爬取

import requests
from bs4 import BeautifulSoup
import re
import csv

#定义爬取函数
def get_infos(htmls, csvname):
 #信息头
 headers = {
 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'
 }
 #flag在写入文件时判断是否为首行
 flag = True
 #判断第一页网址,第二页及其后的网址
 for i in range(10):
 if i == 0:
  html = htmls
 else:
  html = htmls + 'index-{}.html'.format(str(i+1))
 res = requests.get(html, headers=headers)
 soup = BeautifulSoup(res.text, 'lxml')
 alls = soup.select('#asyncRatingRegion > li') #选取网页的li节点的内容
 #对节点内容进行循环遍历
 for one in alls:
  paiming = one.div.em.string #排名
  names = str(one.select('div.mov_pic > a')) #电影名称并将列表字符串化
  name = re.findall('.*?title="(.*?)">.*?', names, re.S)[0] #使用正则表达式提取内容
  content = str(one.select('div.mov_con > p.mt3')) #评论
  realcontent = re.findall('.*?mt3">(.*?)</p>', content, re.S)[0] #同上
  p1 = one.find(name='span', attrs={'class': 'total'}, text=re.compile('\d')) #评分在两个节点,
  p2 = one.find(name='span', attrs={'class': 'total2'}, text=re.compile('.\d'))
  #判断评分是否为空
  if p1 and p2 != None:
  p1 = p1.string
  p2 = p2.string
  else:
  p1 = 'no'
  p2 = ' point'
  point = p1 + p2 + '分'
  numbers = one.find(text=re.compile('评分')) #评分数量
  # 保存为csv
  csvnames = 'C:\\Users\lenovo\Desktop\\' + csvname + '.csv'
  with open(csvnames, 'a+', encoding='utf-8') as f:
  writer = csv.writer(f)
  if flag:
   writer.writerow(('paiming', 'name', 'realcontent', 'point', 'numbers'))
  writer.writerow((paiming, name, realcontent, point, numbers))
  flag = False

#调用函数
Japan_html = 'http://www.mtime.com/top/movie/top100_japan/'
csvname1 = 'Japan_top'
get_infos(Japan_html, csvname1)

Korea_html = 'http://www.mtime.com/top/movie/top100_south_korea/'
csvname2 = 'Korea_top'
get_infos(Korea_html, csvname2)

这里要注意的是要有些电影没有评分,为了预防出现这种情况,所以要进行判断

注:上述没有添加华语电影top100及所有电影top100的代码,可自行添加。

爬取结果部分内容如下:

python使用BeautifulSoup与正则表达式爬取时光网不同地区top100电影并对比

-----------------------------------------------------------------------------------------------------------------------------------------------------------------

步骤二和三:导入数据并使用matplotlib分析,保存分析图片

import csv
from matplotlib import pyplot as plt
#中文乱码处理
plt.rcParams['font.sans-serif'] =['Microsoft YaHei']
plt.rcParams['axes.unicode_minus'] = False

def read_csv(csvname):
 csvfile_name = 'C:\\Users\lenovo\Desktop\\' + csvname + '.csv'
 #打开文件并存入列表
 with open(csvfile_name,encoding='utf-8') as f:
 reader = csv.reader(f)
 header_row = next(reader)
 name = []
 for row in reader:
  name.append(row)
 #取列表中非空元素
 real = []
 for i in name:
 if len(i) != 0:
  real.append(i)
 #去除中文并将数据转换为整形
 t = 0
 ss = []
 for j in real:
 ss.append(int(real[t][4][:-5]))
 t += 1
 return ss

#绘制对比图形
All_plt = read_csv('bs1') #调用函数
China_plt = read_csv('China_top')
Japan_plt = read_csv('Japan_top')
Korea_plt = read_csv('Korea_top')
shu = list(range(1,101))
fig = plt.figure(dpi=128, figsize=(10, 6)) #设置图形界面
plt.subplot(2,1,1)
plt.bar(shu ,All_plt, align='center', color='green', label='World', alpha=0.6) #绘制条图形,align指定横坐标在中心,颜色,alpha指定透明度
plt.bar(shu ,China_plt, color='indigo', label='China', alpha=0.4) #绘制图形,颜色, label属性用于后面使用legend方法时显示图例标签
plt.bar(shu ,Japan_plt, color='blue', label='Japan',alpha=0.5) #绘制图形,颜色,
plt.bar(shu ,Korea_plt, color='yellow', label='Korea',alpha=0.5) #绘制图形,颜色,
plt.ylabel('评论数', fontsize=10) #纵坐标题目,字体大小
plt.title('不同地区的电影top100对比', fontsize=10) #图形标题
plt.legend(loc='best')

plt.subplot(2,1,2)
plt.plot(shu , All_plt, linewidth=1, c='green', label='World') #绘制图形,指定线宽,颜色,label属性用于后面使用legend方法时显示图例标签
plt.plot(shu ,China_plt, linewidth=1, c='indigo', label='China', ls='-.') #绘制图形,指定线宽,颜色,
plt.plot(shu ,Japan_plt, linewidth=1, c='green', label='Japan', ls='--') #绘制图形,指定线宽,颜色,
plt.plot(shu ,Korea_plt, linewidth=1, c='red', label='Korea', ls=':') #绘制图形,指定线宽,颜色,
plt.ylabel('comments', fontsize=10) #纵坐标题目,字体大小
plt.title('The different top 100 movies\'comments comparison', fontsize=10) #图形标题
plt.legend(loc='best')
'''
plt.legend()——loc参数选择
'best' : 0, #自动选择最好位置 
 'upper right' : 1,
 'upper left' : 2,
 'lower left' : 3,
 'lower right' : 4,
 'right' : 5,
 'center left' : 6,
 'center right' : 7,
 'lower center' : 8,
 'upper center' : 9,
 'center' : 10,
 '''
plt.savefig('C:\\Users\lenovo\Desktop\\bs1.png') #保存图片
plt.show() #显示图形

这里需要注意的是读取保存的csv文件并将数据传入列表时,每一个电影数据又是一个列表(先称为有效列表),每个有效列表前后都有一个空列表,所以需要将空列表删除,才能进行下一步

评分数据为string类型且有中文,所以进行遍历将中文去除并转换为int。

最后保存的对比分析图片:

python使用BeautifulSoup与正则表达式爬取时光网不同地区top100电影并对比

本次使用的爬取方法、爬取内容、分析内容都很容易,但我在完成过程中,发现自己还是会出现各种各样的问题,说明还有很多需要改善进步的地方。

同时欢迎大家指正。

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。

Python 相关文章推荐
详解Python中的__new__()方法的使用
Apr 09 Python
Python中设置变量访问权限的方法
Apr 27 Python
Django 前后台的数据传递的方法
Aug 08 Python
selenium python浏览器多窗口处理代码示例
Jan 15 Python
Python实现将照片变成卡通图片的方法【基于opencv】
Jan 17 Python
详解Django之auth模块(用户认证)
Apr 17 Python
Python提取频域特征知识点浅析
Mar 04 Python
使用python将mysql数据库的数据转换为json数据的方法
Jul 01 Python
简单了解python的内存管理机制
Jul 08 Python
python处理自动化任务之同时批量修改word里面的内容的方法
Aug 23 Python
Keras loss函数剖析
Jul 06 Python
基于python爬取梨视频实现过程解析
Nov 09 Python
Python Datetime模块和Calendar模块用法实例分析
Apr 15 #Python
Python如何处理大数据?3个技巧效率提升攻略(推荐)
Apr 15 #Python
Python利用lxml模块爬取豆瓣读书排行榜的方法与分析
Apr 15 #Python
Python常见读写文件操作实例总结【文本、json、csv、pdf等】
Apr 15 #Python
10招!看骨灰级Pythoner玩转Python的方法
Apr 15 #Python
Python后台开发Django会话控制的实现
Apr 15 #Python
浅析Python 实现一个自动化翻译和替换的工具
Apr 14 #Python
You might like
PHP中的加密功能
2006/10/09 PHP
php预定义常量
2006/12/25 PHP
CentOS 6.2使用yum安装LAMP以及phpMyadmin详解
2013/06/17 PHP
关于PHP内存溢出问题的解决方法
2013/06/25 PHP
php使用fputcsv实现大数据的导出操作详解
2020/02/27 PHP
为你的 Laravel 验证器加上多验证场景的实现
2020/04/07 PHP
强悍无比的WEB开发好助手FireBug(Firefox Plugin)
2007/01/16 Javascript
Opacity.js
2007/01/22 Javascript
javascript生成/解析dom的CDATA类型的字段的代码
2007/04/22 Javascript
javascript encodeURI和encodeURIComponent的比较
2010/04/03 Javascript
详细介绍8款超实用JavaScript框架
2013/10/25 Javascript
PHP abstract与interface之间的区别
2013/11/11 Javascript
页面装载js及性能分析方法介绍
2014/03/21 Javascript
JavaScript实现瀑布流布局
2020/06/28 Javascript
javascript实现仿百度图片的瀑布流加载效果
2016/04/20 Javascript
jquery实现下拉框功能效果【实例代码】
2016/05/06 Javascript
jQuery基础知识点总结(DOM操作)
2016/06/01 Javascript
Web打印解决方案之证件套打的实现思路
2016/08/29 Javascript
jQuery序列化form表单数据为JSON对象的实现方法
2018/09/20 jQuery
浅述python中argsort()函数的实例用法
2017/03/30 Python
浅谈python numpy中nonzero()的用法
2018/04/02 Python
python线程中同步锁详解
2018/04/27 Python
Python 如何对文件目录操作
2020/07/10 Python
如何用python爬取微博热搜数据并保存
2021/02/20 Python
HTML5视频播放插件 video.js介绍
2018/09/29 HTML / CSS
萨克斯第五大道的折扣店:Saks Fifth Avenue OFF 5TH
2016/08/25 全球购物
英国当代时尚和街头服饰店:18montrose
2018/12/15 全球购物
温泉秘密:Onsen Secret
2020/07/06 全球购物
浙大网新C/C++面试解惑
2015/05/27 面试题
创联软件面试题笔试题
2012/10/07 面试题
环境科学专业个人求职信
2013/09/26 职场文书
大学毕业登记表自我鉴定
2013/10/09 职场文书
大学生的自我鉴定范文
2014/01/21 职场文书
安全生产工作汇报
2014/10/28 职场文书
安全生产工作汇报材料
2014/10/28 职场文书
分享CSS盒子模型隐藏的几种方式
2022/02/28 HTML / CSS