编程 Python

基于python实现的抓取腾讯视频所有电影的爬虫

Posted in Python onApril 22, 2016

我搜集了国内10几个电影网站的数据，里面近几十W条记录，用文本没法存，mongodb学习成本非常低，安装、下载、运行起来不会花你5分钟时间。

# -*- coding: utf-8 -*-
# by awakenjoys. my site: www.dianying.at
import re
import urllib2
from bs4 import BeautifulSoup
import string, time
import pymongo
 
NUM  = 0   #全局变量,电影数量
m_type = u''  #全局变量,电影类型
m_site = u'qq' #全局变量,电影网站
 
#根据指定的URL获取网页内容
def gethtml(url):
 req = urllib2.Request(url) 
 response = urllib2.urlopen(req) 
 html = response.read()
 return html
 
#从电影分类列表页面获取电影分类
def gettags(html):
 global m_type
 soup = BeautifulSoup(html)  #过滤出分类内容
 #print soup
 #<ul class="clearfix _group" gname="mi_type" gtype="1">
 tags_all = soup.find_all('ul', {'class' : 'clearfix _group' , 'gname' : 'mi_type'})
 #print len(tags_all), tags_all
 #print str(tags_all[1]).replace('\n', '')
 
 #<a _hot="tag.sub" class="_gtag _hotkey" href="http://v.qq.com/list/1_0_-1_-1_1_0_0_20_0_-1_0.html" title="动作" tvalue="0">动作</a>
 re_tags = r'<a _hot=\"tag\.sub\" class=\"_gtag _hotkey\" href=\"(.+?)\" title=\"(.+?)\" tvalue=\"(.+?)\">.+?</a>'
 p = re.compile(re_tags, re.DOTALL)
 
 tags = p.findall(str(tags_all[0]))
 if tags:
  tags_url = {}
  #print tags
  for tag in tags:
   tag_url = tag[0].decode('utf-8')
   #print tag_url
   m_type = tag[1].decode('utf-8')
   tags_url[m_type] = tag_url 
    
 else:
   print "Not Find"
 return tags_url
 
#获取每个分类的页数
def get_pages(tag_url):
 tag_html = gethtml(tag_url)
 #div class="paginator
 soup = BeautifulSoup(tag_html)  #过滤出标记页面的html
 #print soup
 #<div class="mod_pagenav" id="pager">
 div_page = soup.find_all('div', {'class' : 'mod_pagenav', 'id' : 'pager'})
 #print div_page #len(div_page), div_page[0]
 
 #<a class="c_txt6" href="http://v.qq.com/list/1_2_-1_-1_1_0_24_20_0_-1_0.html" title="25"><span>25</span></a>
 re_pages = r'<a class=.+?><span>(.+?)</span></a>'
 p = re.compile(re_pages, re.DOTALL)
 pages = p.findall(str(div_page[0]))
 #print pages
 if len(pages) > 1:
  return pages[-2]
 else:
  return 1
  
 
def getmovielist(html):
 soup = BeautifulSoup(html)
 
 #<ul class="mod_list_pic_130">
 divs = soup.find_all('ul', {'class' : 'mod_list_pic_130'})
 #print divs
 for div_html in divs:
  div_html = str(div_html).replace('\n', '')
  #print div_html
  getmovie(div_html)
 
 
def getmovie(html):
 global NUM
 global m_type
 global m_site
 
 #<h6 class="caption"> <a href="http://www.tudou.com/albumcover/Z7eF_40EL4I.html" target="_blank" title="徒步旅行队">徒步旅行队</a> </h6> <ul class="info"> <li class="desc">法国卖座喜剧片</li> <li class="cast"> </li> </ul> </div> <div class="ext ext_last"> <div class="ext_txt"> <h3 class="ext_title">徒步旅行队</h3> <div class="ext_info"> <span class="ext_area">地区: 法国</span> <span class="ext_cast">导演: </span> <span class="ext_date">年代: 2009</span> <span class="ext_type">类型: 喜剧</span> </div> <p class="ext_intro">理查德·达奇拥有一家小的旅游公司，主要经营法国游客到非洲大草原的旅游服务。六个法国游客决定参加理查德·达奇组织的到非洲的一...</p>
 
 re_movie = r'<li><a class=\"mod_poster_130\" href=\"(.+?)\" target=\"_blank\" title=\"(.+?)\"><img.+?</li>'
 p = re.compile(re_movie, re.DOTALL)
 movies = p.findall(html)
 if movies:
  conn = pymongo.Connection('localhost', 27017)
  movie_db = conn.dianying
  playlinks = movie_db.playlinks
  #print movies
  for movie in movies:
   #print movie
   NUM += 1
   print "%s : %d" % ("=" * 70, NUM)
   values = dict(
    movie_title = movie[1],
    movie_url = movie[0],
    movie_site  = m_site,
    movie_type  = m_type
    )
   print values
   playlinks.insert(values)
   print "_" * 70
   NUM += 1
   print "%s : %d" % ("=" * 70, NUM)
 
 #else:
 # print "Not Find"
 
def getmovieinfo(url):
 html = gethtml(url)
 soup = BeautifulSoup(html)
 
 #pack pack_album album_cover
 divs = soup.find_all('div', {'class' : 'pack pack_album album_cover'})
 #print divs[0]
 
 #<a href="http://www.tudou.com/albumplay/9NyofXc_lHI/32JqhiKJykI.html" target="new" title="《血滴子》独家纪录片" wl="1"> </a> 
 re_info = r'<a href=\"(.+?)\" target=\"new\" title=\"(.+?)\" wl=\".+?\"> </a>'
 p_info = re.compile(re_info, re.DOTALL)
 m_info = p_info.findall(str(divs[0]))
 if m_info:
  return m_info
 else:
  print "Not find movie info"
 
 return m_info
 
 
def insertdb(movieinfo):
 global conn
 movie_db = conn.dianying_at
 movies = movie_db.movies
 movies.insert(movieinfo)
 
if __name__ == "__main__":
 global conn
 
 tags_url = "http://v.qq.com/list/1_-1_-1_-1_1_0_0_20_0_-1_0.html"
 #print tags_url
 tags_html = gethtml(tags_url)
 #print tags_html
 tag_urls = gettags(tags_html)
 #print tag_urls
 
 
 for url in tag_urls.items():
  print str(url[1]).encode('utf-8') #,url[0]
  maxpage = int(get_pages(str(url[1]).encode('utf-8')))
  print maxpage
 
  for x in range(0, maxpage):
   #http://v.qq.com/list/1_0_-1_-1_1_0_0_20_0_-1_0.html
   m_url = str(url[1]).replace('0_20_0_-1_0.html', '')
   movie_url = "%s%d_20_0_-1_0.html" % (m_url, x)
   print movie_url
   movie_html = gethtml(movie_url.encode('utf-8'))
   #print movie_html
   getmovielist(movie_html)
   time.sleep(0.1)

- Author -

mdxy-dxy

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

简析Python的闭包和装饰器

Feb 26 Python

Python中的异常处理相关语句基础学习笔记

Jul 11 Python

解决pyqt中ui编译成窗体.py中文乱码的问题

Dec 23 Python

Python实现随机选择元素功能

Sep 14 Python

Python实现识别手写数字 Python图片读入与处理

Mar 23 Python

python把数组中的数字每行打印3个并保存在文档中的方法

Jul 17 Python

78行Python代码实现现微信撤回消息功能

Jul 26 Python

python进行文件对比的方法

Dec 24 Python

Django 静态文件配置过程详解

Jul 23 Python

最简单的matplotlib安装教程(小白)

Jul 28 Python

python删除csv文件的行列

Apr 06 Python

Django数据库(SQlite)基本入门使用教程

Jul 07 Python

Python开发之快速搭建自动回复微信公众号功能

Apr 22 #Python

Django小白教程之Django用户注册与登录

Apr 22 #Python

python中PIL安装简单教程

Apr 21 #Python

Python for Informatics 第11章之正则表达式（四）

Apr 21 #Python

Python for Informatics 第11章之正则表达式（二）

Apr 21 #Python

Python for Informatics 第11章正则表达式(一)

Apr 21 #Python

编写Python爬虫抓取暴走漫画上gif图片的实例分享

Apr 20 #Python

You might like

mysql+php分页类（已测）

2008/03/31 PHP

php横向重复区域显示二法

2008/09/25 PHP

PHP IF ELSE简化/三元一次式的使用

2011/08/22 PHP

php实现读取和写入tab分割的文件

2015/06/01 PHP

PHP使用ActiveMQ实例

2018/02/05 PHP

原生JS实现Ajax通过POST方式与PHP进行交互的方法示例

2018/05/12 PHP

用javascript自动显示最后更新时间

2007/03/15 Javascript

地震发生中逃生十大法则

2008/05/12 Javascript

javascript 时间比较实现代码

2009/10/28 Javascript

javascript for循环设法提高性能

2010/02/24 Javascript

日期处理的js库（迷你版）--自建js库总结

2011/11/21 Javascript

Get中文乱码IE浏览器Get中文乱码解决方案

2013/12/26 Javascript

onmouseover事件和onmouseout事件全面理解

2016/08/15 Javascript

Angularjs结合Bootstrap制作的一个TODO List

2016/08/18 Javascript

关于vue中 $emit的用法详解

2018/04/12 Javascript

bootstrap动态调用select下拉框的实例代码

2018/08/09 Javascript

[01:03:22]LGD vs OG 2018国际邀请赛淘汰赛BO3 第一场 8.25

2018/08/29 DOTA

分析python服务器拒绝服务攻击代码

2014/01/16 Python

Python列表生成器的循环技巧分享

2015/03/06 Python

粗略分析Python中的内存泄漏

2015/04/23 Python

Python中实现switch功能实例解析

2018/01/11 Python

Pycharm在创建py文件时,自动添加文件头注释的实例

2018/05/07 Python

在Sublime Editor中配置Python环境的详细教程

2020/05/03 Python

django中related_name的用法说明

2020/05/20 Python

PyCharm+PyQt5+QtDesigner配置详解

2020/08/12 Python

python中sys模块是做什么用的

2020/08/16 Python

英国领先的狗和宠物美容专家：Christies Direct

2017/04/03 全球购物

芭比波朗加拿大官方网站：Bobbi Brown Cosmetics CA

2020/11/05 全球购物

团支书竞选演讲稿

2014/04/28 职场文书

主持人演讲稿

2014/05/13 职场文书

文明礼仪标语

2014/06/13 职场文书

高一学年自我鉴定范文（3篇）

2014/09/26 职场文书

公司法定代表人授权委托书

2014/09/29 职场文书

人民的好儿女观后感

2015/06/18 职场文书

2015年清剿火患专项行动工作总结

2015/07/27 职场文书

自荐信大全

2019/03/21 职场文书