编程 Python

一个简单的python爬虫程序爬取豆瓣热度Top100以内的电影信息

Posted in Python onApril 17, 2018

概述

这是一个简单的python爬虫程序，仅用作技术学习与交流，主要是通过一个简单的实际案例来对网络爬虫有个基础的认识。

什么是网络爬虫

简单的讲，网络爬虫就是模拟人访问web站点的行为来获取有价值的数据。专业的解释:百度百科

分析爬虫需求

确定目标

爬取豆瓣热度在Top100以内的电影的一些信息，包括电影的名称、豆瓣评分、导演、编剧、主演、类型、制片国家／地区、语言、上映日期、片长、IMDb链接等信息。

分析目标

1.借助工具分析目标网页

首先，我们打开豆瓣电影·热门电影，会发现页面总共20部电影，但当查看页面源代码当时候，在源代码中根本找不到这些电影当信息。这是为什么呢？原来豆瓣在这里是通过ajax技术获取电影信息，再动态的将数据加载到页面中的。这就需要借助Chrome的开发者工具，先找到获取电影信息的API。

一个简单的python爬虫程序爬取豆瓣热度Top100以内的电影信息

然后对电影详情页进行分析

一个简单的python爬虫程序爬取豆瓣热度Top100以内的电影信息

思路分析

一个简单的python爬虫程序爬取豆瓣热度Top100以内的电影信息

具体实现

开发环境

python3.6

pycharm

主要依赖库

urllib -- 基础性的网络相关操作

lxml -- 通过xpath语法解析HTML页面

json -- 对通过API获取的JSON数据进行操作

re -- 正则操作

代码实现

from urllib import request
from lxml import etree
import json
import re
import ssl


# 全局取消证书验证
ssl._create_default_https_context = ssl._create_unverified_context


def get_headers():
  """
  返回请求头信息
  :return:
  """
  headers = {
    'User-Agent': "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) "
           "AppleWebKit/537.36 (KHTML, like Gecko) "
           "Chrome/65.0.3325.181 Safari/537.36"
  }
  return headers


def get_url_content(url):
  """
  获取指定url的请求内容
  :param url:
  :return:
  """
  content = ''
  headers = get_headers()
  res = request.Request(url, headers=headers)
  try:
    resp = request.urlopen(res, timeout=10)
    content = resp.read().decode('utf-8')
  except Exception as e:
    print('exception: %s' % e)
  return content


def parse_content(content):
  """
  解析网页
  :param content:
  :return:
  """
  movie = {}
  html = etree.HTML(content)
  try:
    info = html.xpath("//div[@id='info']")[0]
    movie['director'] = info.xpath("./span[1]/span[2]/a/text()")[0]
    movie['screenwriter'] = info.xpath("./span[2]/span[2]/a/text()")[0]
    movie['actors'] = '/'.join(info.xpath("./span[3]/span[2]/a/text()"))
    movie['type'] = '/'.join(info.xpath("./span[@property='v:genre']/"
                      "text()"))
    movie['initialReleaseDate'] = '/'.\
      join(info.xpath(".//span[@property='v:initialReleaseDate']/text()"))
    movie['runtime'] = \
      info.xpath(".//span[@property='v:runtime']/text()")[0]

    def str_strip(s):
      return s.strip()

    def re_parse(key, regex):
      ret = re.search(regex, content)
      movie[key] = str_strip(ret[1]) if ret else ''

    re_parse('region', r'<span class="pl">制片国家/地区:</span>(.*?)<br/>')
    re_parse('language', r'<span class="pl">语言:</span>(.*?)<br/>')
    re_parse('imdb', r'<span class="pl">IMDb链接:</span> <a href="(.*?)" rel="external nofollow" '
             r'target="_blank" >')
  except Exception as e:
    print('解析异常: %s' % e)
  return movie


def spider():
  """
  爬取豆瓣前100部热门电影
  :return:
  """
  recommend_moives = []
  movie_api = 'https://movie.douban.com/j/search_subjects?' \
        'type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend' \
        '&page_limit=100&page_start=0'
  content = get_url_content(movie_api)
  json_dict = json.loads(content)
  subjects = json_dict['subjects']
  for subject in subjects:
    content = get_url_content(subject['url'])
    movie = parse_content(content)
    movie['title'] = subject['title']
    movie['rate'] = subject['rate']
    recommend_moives.append(movie)
    print(len(recommend_moives))
  print(recommend_moives)


if __name__ == '__main__':
  spider()

效果

一个简单的python爬虫程序爬取豆瓣热度Top100以内的电影信息总结

本文较详细的阐述了一个爬虫从需求->分析->实现的过程，并给出了具体的代码实现。通过对本文的学习，我们可以了解到网络爬虫的一些基本的知识，以及python的一些基本库的使用方法。接下来我会使用一些高级些的网络操作相关的库以及对抓取到的数据做个存储的方式，来更深层次的理解python网络爬虫。

特别声明

1. 本文涉及到的豆瓣网是国内知名网站，若有侵权之处，请告知。
2. 本文属作者原创，转载请标明出处；未经允许，不得用于商业用途。
3. 本文只是用作网络爬虫技术学习交流，读者涉及到的任何侵权问题，与本文作者无关。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

一个简单的python爬虫程序爬取豆瓣热度Top100以内的电影信息

- Author -

joseph_ji

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

浅析使用Python操作文件

Jul 31 Python

Python下载网络文本数据到本地内存的四种实现方法示例

Feb 05 Python

对Python中9种生成新对象的方法总结

May 23 Python

Python生成短uuid的方法实例详解

May 29 Python

Python函数返回不定数量的值方法

Jan 22 Python

jupyter notebook 中输出pyecharts图实例

Apr 23 Python

python中的单引号双引号区别知识点总结

Jun 23 Python

Kali Linux安装ipython2 和 ipython3的方法

Jul 11 Python

pandas read_excel()和to_excel()函数解析

Sep 19 Python

.dcm格式文件软件读取及python处理详解

Jan 16 Python

python日期与时间戳的各种转换示例

Feb 12 Python

Django视图类型总结

Feb 17 Python

Numpy掩码式数组详解

Apr 17 #Python

对numpy中布尔型数组的处理方法详解

Apr 17 #Python

Python简单实现阿拉伯数字和罗马数字的互相转换功能示例

Apr 17 #Python

python3库numpy数组属性的查看方法

Apr 17 #Python

对python中的for循环和range内置函数详解

Apr 17 #Python

Numpy数组转置的两种实现方法

Apr 17 #Python

详解Django之auth模块（用户认证）

Apr 17 #Python

You might like

php 获取页面中指定内容的实现类

2014/01/23 PHP

php实现的网络相册图片防盗链完美破解方法

2015/07/01 PHP

[原创]PHPCMS遭遇会员投稿审核无效的解决方法

2017/01/11 PHP

简单谈谈PHP面向对象之标识对象

2017/06/27 PHP

PHP实现微信提现功能

2018/09/30 PHP

Some tips of wmi scripting in jscript (1)

2007/04/03 Javascript

javascript拓展DOM操作 prependChild insertAfert

2010/11/17 Javascript

js 操作select和option常用代码整理

2012/12/13 Javascript

JQuery插件fancybox无法在弹出层使用左右键的解决办法

2013/12/25 Javascript

JS实现div居中示例

2014/04/17 Javascript

js自定义回调函数

2015/12/13 Javascript

js原型链与继承解析（初体验）

2016/05/09 Javascript

js阻止默认浏览器行为与冒泡行为的实现代码

2016/05/15 Javascript

解析AngularJS中get请求URL出现的跨域问题

2016/12/01 Javascript

从零学习node.js之简易的网络爬虫（四）

2017/02/22 Javascript

Vue2.0如何发布项目实战

2017/07/27 Javascript

three.js加载obj模型的实例代码

2017/11/10 Javascript

nodejs实现连接mongodb数据库的方法示例

2018/03/15 NodeJs

Vue使用vue-recoure + http-proxy-middleware + vuex配合promise实现基本的跨域请求封装

2019/10/21 Javascript

Element中Slider滑块的具体使用

2020/07/29 Javascript

Python Web框架Tornado运行和部署

2020/10/19 Python

使用DataFrame删除行和列的实例讲解

2018/04/08 Python

Python OpenCV之图片缩放的实现（cv2.resize）

2019/06/28 Python

python的pstuil模块使用方法总结

2019/07/26 Python

Python3标准库之dbm UNIX键-值数据库问题

2020/03/24 Python

css图标制作教程制作云图标

2014/01/19 HTML / CSS

仿CSDN Blog返回页面顶部功能实现原理及代码

2013/06/30 HTML / CSS

10个最常见的HTML5面试题附答案

2016/06/06 HTML / CSS

Perfumetrader荷兰：香水、化妆品和护肤品在线商店

2017/09/15 全球购物

美国网上鞋子零售商：Dr. Scholl’s Shoes

2017/11/17 全球购物

台湾网友喜爱的综合型网路购物商城：Yahoo! 奇摩购物中心

2018/03/10 全球购物

澳大利亚百货商店中销量第一的商务衬衫品牌：Van Heusen

2018/07/26 全球购物

测绘工程专业求职信

2014/07/15 职场文书

辩论会主持词

2015/07/03 职场文书

小学语文教师研修感悟

2015/11/18 职场文书

Go语言特点及基本数据类型使用详解

2022/03/21 Golang

一个简单的python爬虫程序 爬取豆瓣热度Top100以内的电影信息

一个简单的python爬虫程序爬取豆瓣热度Top100以内的电影信息