编程 Python

一个入门级python爬虫教程详解

Posted in Python onJanuary 27, 2021

前言

本文目的：根据本人的习惯与理解，用最简洁的表述，介绍爬虫的定义、组成部分、爬取流程，并讲解示例代码。

基础

爬虫的定义：定向抓取互联网内容（大部分为网页）、并进行自动化数据处理的程序。主要用于对松散的海量信息进行收集和结构化处理，为数据分析和挖掘提供原材料。

今日t条就是一只巨大的“爬虫”。

爬虫由URL库、采集器、解析器组成。

流程

如果待爬取的url库不为空，采集器会自动爬取相关内容，并将结果给到解析器，解析器提取目标内容后进行写入文件或入库等操作。

一个入门级python爬虫教程详解

代码

第一步：写一个采集器

如下是一个比较简单的采集器函数。需要用到requests库。
首先，构造一个http的header，里面有浏览器和操作系统等信息。如果没有这个伪造的header，可能会被目标网站的WAF等防护设备识别为机器代码并干掉。

然后，用requests库的get方法获取url内容。如果http响应代码是200 ok，说明页面访问正常，将该函数返回值设置为文本形式的html代码内容。

如果响应代码不是200 ok，说明页面不能正常访问，将函数返回值设置为特殊字符串或代码。

import requests

def get_page(url):
	headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36'}
	response = requests.get(url, headers= headers)
	if response.status_code == 200:
	  return response.text
	else:
		return 'GET HTML ERROR !'

第二步：解析器

解析器的作用是对采集器返回的html代码进行过滤筛选，提取需要的内容。
作为一个14年忠实用户，当然要用豆瓣举个栗子 _

我们计划爬取豆瓣排名TOP250电影的8个参数：排名、电影url链接、电影名称、导演、上映年份、国家、影片类型、评分。整理成字典并写入文本文件。

待爬取的页面如下，每个页面包括25部电影，共计10个页面。

一个入门级python爬虫教程详解

在这里，必须要表扬豆瓣的前端工程师们，html标签排版非常工整具有层次，非常便于信息提取。

下面是“肖申克的救赎”所对应的html代码：（需要提取的8个参数用红线标注）

一个入门级python爬虫教程详解

根据上面的html编写解析器函数，提取8个字段。该函数返回值是一个可迭代的序列。
我个人喜欢用re（正则表达式）提取内容。8个（.*?）分别对应需要提取的字段。

import re

def parse_page(html):
	pattern = re.compile('<em class="">(.*?)</em>.*?<a href="(.*?)" rel="external nofollow" rel="external nofollow" >.*?<span class="title">(.*?)</span>.*?<div class="bd">.*?<p class="">(.*?) .*?<br>(.*?) / (.*?) / (.*?)</p>.*?<span class="rating_num".*?"v:average">(.*?)</span>' , re.S)
	items = re.findall(pattern , html)
	for item in items:
		yield {
		  'rank': item[0],
		  'href': item[1],
		  'name': item[2],
		  'director': item[3].strip()[4:],
		  'year': item[4].strip(),
		  'country': item[5].strip(),
		  'style': item[6].strip(),
		  'score': item[7].strip()
		}

提取后的内容如下：

一个入门级python爬虫教程详解

整理成完整的代码：（暂不考虑容错）

import requests
import re
import json

def get_page(url):
	#采集器函数
	headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36'}
	response = requests.get(url, headers= headers)
	if response.status_code == 200:
	  return response.text
	else:
		return 'GET HTML ERROR ! '


def parse_page(html):
	#解析器函数
	pattern = re.compile('<em class="">(.*?)</em>.*?<a href="(.*?)" rel="external nofollow" rel="external nofollow" >.*?<span class="title">(.*?)</span>.*?<div class="bd">.*?<p class="">(.*?) .*?<br>(.*?) / (.*?) / (.*?)</p>.*?<span class="rating_num".*?"v:average">(.*?)</span>' , re.S)
	items = re.findall(pattern , html)
	for item in items:
		yield {
		  'rank': item[0],
		  'href': item[1],
		  'name': item[2],
		  'director': item[3].strip()[4:],
		  'year': item[4].strip(),
		  'country': item[5].strip(),
		  'style': item[6].strip(),
		  'score': item[7].strip()
		}


def write_to_file(content):
	#写入文件函数
	with open('result.txt' , 'a' , encoding = 'utf-8') as file:
		file.write(json.dumps(content , ensure_ascii = False) + '\n')


if __name__== "__main__":
	# 主程序
	for i in range(10):
		url= 'https://movie.douban.com/top250?start='+ str(i*25)+ '&filter'
		for res in parse_page(get_page(url)):
			write_to_file(res)

非常简洁，非常符合python简单、高效的特点。

说明：

需要掌握待爬取url的规律，才能利用for循环等操作自动化处理。
前25部影片的url是https://movie.douban.com/top250?start=0&filter，第26-50部影片url是https://movie.douban.com/top250?start=25&filter。规律就在start参数，将start依次设置为0、25、50、75。。。225，就能获取所有页面的链接。parse_page函数的返回值是一个可迭代序列，可以理解为字典的集合。运行完成后，会在程序同目录生成result.txt文件。内容如下：

一个入门级python爬虫教程详解

到此这篇关于一个入门级python爬虫教程详解的文章就介绍到这了,更多相关python爬虫入门教程内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

一个入门级python爬虫教程详解

- Author -

雨飘香

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python 连连看连接算法

Nov 22 Python

python计算方程式根的方法

May 07 Python

约瑟夫问题的Python和C++求解方法

Aug 20 Python

深入解析Python中的__builtins__内建对象

Jun 21 Python

python获取多线程及子线程的返回值

Nov 15 Python

Pandas数据离散化原理及实例解析

Nov 16 Python

django框架F&Q 聚合与分组操作示例

Dec 12 Python

python去除删除数据中\u0000\u0001等unicode字符串的代码

Mar 06 Python

python判断正负数方式

Jun 03 Python

Python性能分析工具py-spy原理用法解析

Jul 27 Python

使用numpy nonzero 找出非0元素

May 14 Python

详解Golang如何实现支持随机删除元素的堆

Sep 23 Python

python+selenium爬取微博热搜存入Mysql的实现方法

Jan 27 #Python

Python实现网络聊天室的示例代码(支持多人聊天与私聊)

Jan 27 #Python

基于Python的接口自动化unittest测试框架和ddt数据驱动详解

Jan 27 #Python

python实现scrapy爬虫每天定时抓取数据的示例代码

Jan 27 #Python

使用bandit对目标python代码进行安全函数扫描的案例分析

Jan 27 #Python

用Python实现定时备份Mongodb数据并上传到FTP服务器

Jan 27 #Python

python re.match()用法相关示例

Jan 27 #Python

You might like

PHP中imagick函数的中文解释

2015/01/21 PHP

PHP date函数常用时间处理方法

2015/05/11 PHP

PHP编写的图片验证码类文件分享

2016/06/06 PHP

JavaScript入门教程(10) 认识其他对象

2009/01/31 Javascript

图像替换新技术状态域方法

2010/01/28 Javascript

JavaScript 判断浏览器是否支持SVG的代码

2013/03/21 Javascript

JavaScript实现维吉尼亚(Vigenere)密码算法实例

2013/11/22 Javascript

Node.js安装教程和NPM包管理器使用详解

2014/08/16 Javascript

Javascript中神奇的this

2016/01/20 Javascript

jQuery查看选中对象HTML代码的方法

2016/06/17 Javascript

微信小程序之多文件下载的简单封装示例

2018/01/29 Javascript

使用Node搭建reactSSR服务端渲染架构

2018/08/30 Javascript

electron中使用bootstrap的示例代码

2018/11/06 Javascript

详解基于electron制作一个node压缩图片的桌面应用

2019/01/29 Javascript

jquery实现聊天机器人

2020/02/08 jQuery

[54:09]RNG vs Liquid 2019国际邀请赛淘汰赛败者组 BO3 第一场 8.23

2019/09/05 DOTA

pycharm 使用心得（三）Hello world！

2014/06/05 Python

Python中使用socket发送HTTP请求数据接收不完整问题解决方法

2015/02/04 Python

Python中运算符"=="和"is"的详解

2016/10/08 Python

python基础教程项目二之画幅好画

2018/04/02 Python

Python可变参数*args和**kwargs用法实例小结

2018/04/27 Python

python 读取dicom文件,生成info.txt和raw文件的方法

2019/01/24 Python

详解Python locals()的陷阱

2019/03/26 Python

selenium中get_cookies()和add_cookie（）的用法详解

2020/01/06 Python

Python telnet登陆功能实现代码

2020/04/16 Python

Python使用Turtle模块绘制国旗的方法示例

2021/02/28 Python

数以千计的折扣工业产品：ESE Direct

2018/05/20 全球购物

Hotels.com英国：全球领先的酒店住宿提供商

2019/01/24 全球购物

巴西最大的珠宝连锁店：Vivara

2019/04/18 全球购物

SQL Server笔试题

2012/01/10 面试题

领导干部遵守党的政治纪律情况思想汇报

2014/09/14 职场文书

2014村党支部书记党建工作汇报材料

2014/11/02 职场文书

2015年学校安全管理工作总结

2015/05/11 职场文书

行政上诉状范文

2015/05/23 职场文书

python实现求纯色彩图像的边框

2021/04/08 Python

python创建字典及相关管理操作

2022/04/13 Python