编程 Python

python爬虫---requests库的用法详解

Posted in Python onSeptember 28, 2020

requests是python实现的简单易用的HTTP库，使用起来比urllib简洁很多

因为是第三方库，所以使用前需要cmd安装

pip install requests

安装完成后import一下，正常则说明可以开始使用了。

基本用法：

requests.get()用于请求目标网站，类型是一个HTTPresponse类型

import requestsresponse = requests.get('http://www.baidu.com')
print(response.status_code) # 打印状态码
print(response.url) # 打印请求url
print(response.headers) # 打印头信息
print(response.cookies) # 打印cookie信息
print(response.text) #以文本形式打印网页源码
print(response.content) #以字节流形式打印

运行结果：

状态码：200

url：www.baidu.com

headers信息

python爬虫---requests库的用法详解

各种请求方式：

import requests

requests.get('http://httpbin.org/get')
requests.post('http://httpbin.org/post')
requests.put('http://httpbin.org/put')
requests.delete('http://httpbin.org/delete')
requests.head('http://httpbin.org/get')
requests.options('http://httpbin.org/get')

基本的get请求

import requests

response = requests.get('http://httpbin.org/get')
print(response.text)

结果

python爬虫---requests库的用法详解

带参数的GET请求：

第一种直接将参数放在url内

import requests

response = requests.get(http://httpbin.org/get?name=gemey&age=22)
print(response.text)

结果

python爬虫---requests库的用法详解

另一种先将参数填写在dict中，发起请求时params参数指定为dict

import requests

data = {
  'name': 'tom',
  'age': 20
}

response = requests.get('http://httpbin.org/get', params=data)
print(response.text)

结果同上

解析json

import requests

response = requests.get('http://httpbin.org/get')
print(response.text)
print(response.json()) #response.json()方法同json.loads(response.text)
print(type(response.json()))

结果

python爬虫---requests库的用法详解

简单保存一个二进制文件

二进制内容为response.content

import requests

response = requests.get('http://img.ivsky.com/img/tupian/pre/201708/30/kekeersitao-002.jpg')
b = response.content
with open('F://fengjing.jpg','wb') as f:
  f.write(b)

为你的请求添加头信息

import requests
heads = {}
heads['User-Agent'] = 'Mozilla/5.0 ' \
             '(Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 ' \
             '(KHTML, like Gecko) Version/5.1 Safari/534.50'
 response = requests.get('http://www.baidu.com',headers=headers)

使用代理

同添加headers方法，代理参数也要是一个dict

这里使用requests库爬取了IP代理网站的IP与端口和类型

因为是免费的，使用的代理地址很快就失效了。

import requests
import re

def get_html(url):
  proxy = {
    'http': '120.25.253.234:812',
    'https' '163.125.222.244:8123'
  }
  heads = {}
  heads['User-Agent'] = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0'
  req = requests.get(url, headers=heads,proxies=proxy)
  html = req.text
  return html

def get_ipport(html):
  regex = r'<td data-title="IP">(.+)</td>'
  iplist = re.findall(regex, html)
  regex2 = '<td data-title="PORT">(.+)</td>'
  portlist = re.findall(regex2, html)
  regex3 = r'<td data-title="类型">(.+)</td>'
  typelist = re.findall(regex3, html)
  sumray = []
  for i in iplist:
    for p in portlist:
      for t in typelist:
        pass
      pass
    a = t+','+i + ':' + p
    sumray.append(a)
  print('高匿代理')
  print(sumray)


if __name__ == '__main__':
  url = 'http://www.kuaidaili.com/free/'
  get_ipport(get_html(url))

结果：

python爬虫---requests库的用法详解

基本POST请求：

import requests

data = {'name':'tom','age':'22'}

response = requests.post('http://httpbin.org/post', data=data)

python爬虫---requests库的用法详解

获取cookie

#获取cookie
import requests

response = requests.get('http://www.baidu.com')
print(response.cookies)
print(type(response.cookies))
for k,v in response.cookies.items():
  print(k+':'+v)

结果：

python爬虫---requests库的用法详解

会话维持

import requests

session = requests.Session()
session.get('http://httpbin.org/cookies/set/number/12345')
response = session.get('http://httpbin.org/cookies')
print(response.text)

结果：

python爬虫---requests库的用法详解

证书验证设置

import requests
from requests.packages import urllib3

urllib3.disable_warnings() #从urllib3中消除警告
response = requests.get('https://www.12306.cn',verify=False) #证书验证设为FALSE
print(response.status_code)打印结果：200

超时异常捕获

import requests
from requests.exceptions import ReadTimeout

try:
  res = requests.get('http://httpbin.org', timeout=0.1)
  print(res.status_code)
except ReadTimeout:
  print(timeout)

异常处理

在你不确定会发生什么错误时，尽量使用try...except来捕获异常

所有的requests exception：

Exceptions

import requests
from requests.exceptions import ReadTimeout,HTTPError,RequestException

try:
  response = requests.get('http://www.baidu.com',timeout=0.5)
  print(response.status_code)
except ReadTimeout:
  print('timeout')
except HTTPError:
  print('httperror')
except RequestException:
  print('reqerror')

25行代码带你爬取4399小游戏数据

import requests
import parsel
import csv
f = open('4399游戏.csv', mode='a', encoding='utf-8-sig', newline='')

csv_writer = csv.DictWriter(f, fieldnames=['游戏地址', '游戏名字'])
csv_writer.writeheader()
for page in range(1, 106):
  url = 'http://www.4399.com/flash_fl/5_{}.htm'.format(page)
  headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
  }
  response = requests.get(url=url, headers=headers)
  response.encoding = response.apparent_encoding
  selector = parsel.Selector(response.text)
  lis = selector.css('#classic li')
  for li in lis:
    dit ={}
    data_url = li.css('a::attr(href)').get()
    new_url = 'http://www.4399.com' + data_url.replace('http://', '/')
    dit['游戏地址'] = new_url
    title = li.css('img::attr(alt)').get()
    dit['游戏名字'] = title
    print(new_url, title)
    csv_writer.writerow(dit)
f.close()

到此这篇关于python爬虫---requests库的用法详解的文章就介绍到这了,更多相关python requests库内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

python爬虫---requests库的用法详解

- Author -

AGENTFITZ

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python cookbook（数据结构与算法）实现查找两个字典相同点的方法

Feb 18 Python

Python基于生成器迭代实现的八皇后问题示例

May 23 Python

python 字典中文key处理,读取,比较方法

Jul 06 Python

基于tensorflow加载部分层的方法

Jul 26 Python

Python3 获取一大段文本之间两个关键字之间的内容方法

Oct 11 Python

wxPython绘图模块wxPyPlot实现数据可视化

Nov 19 Python

关于python中plt.hist参数的使用详解

Nov 28 Python

python计算二维矩形IOU实例

Jan 18 Python

From CSV to SQLite3 by python 导入csv到sqlite实例

Feb 14 Python

python判断两个序列的成员是否一样的实例代码

Mar 01 Python

Python grpc超时机制代码示例

Sep 14 Python

python 制作本地应用搜索工具

Feb 27 Python

如何在scrapy中捕获并处理各种异常

Sep 28 #Python

python向企业微信发送文字和图片消息的示例

Sep 28 #Python

python利用tkinter实现图片格式转换的示例

Sep 28 #Python

python在CMD界面读取excel所有数据的示例

Sep 28 #Python

python调用摄像头的示例代码

Sep 28 #Python

python 调用API接口获取和解析 Json数据

Sep 28 #Python

记录一下scrapy中settings的一些配置小结

Sep 28 #Python

You might like

COM in PHP (winows only)

2006/10/09 PHP

PHP JSON格式数据交互实例代码详解

2011/01/13 PHP

thinkphp中AJAX返回ajaxReturn()方法分析

2016/12/06 PHP

php实现留言板功能

2017/03/05 PHP

PHP实现批量删除（封装）

2017/04/28 PHP

Laravel Eloquent ORM 多条件查询的例子

2019/10/10 PHP

破除网页鼠标右键被禁用的绝招大全

2006/12/27 Javascript

Javascript 刷新全集常用代码

2009/11/22 Javascript

JavaScript ECMA-262-3 深入解析.第三章.this

2011/09/28 Javascript

基于jquery的图片幻灯展示源码

2012/07/15 Javascript

利用javascript数组长度循环数组内所有元素

2013/12/27 Javascript

JavaScript实现的encode64加密算法实例分析

2015/04/15 Javascript

JS实现slide文字框缩放伸展效果代码

2015/11/05 Javascript

JavaScript类型检测之typeof 和 instanceof 的缺陷与优化

2016/01/13 Javascript

AngularJS基础 ng-model-options 指令简单示例

2016/08/02 Javascript

Bootstrap Modal遮罩弹出层代码分享

2016/11/21 Javascript

jQuery基于Ajax方式提交表单功能示例

2017/02/10 Javascript

vue.js实现价格格式化的方法

2017/05/23 Javascript

JavaScript判断对象和数组的两种方法

2019/05/31 Javascript

[45:15]Optic vs VP 2018国际邀请赛淘汰赛BO3 第一场 8.24

2018/08/25 DOTA

python解析发往本机的数据包示例 (解析数据包)

2014/01/16 Python

Python MySQLdb Linux下安装笔记

2015/05/09 Python

Python黑魔法@property装饰器的使用技巧解析

2016/06/16 Python

详解python调度框架APScheduler使用

2017/03/28 Python

Python读写及备份oracle数据库操作示例

2018/05/17 Python

PyCharm+Pipenv虚拟环境开发和依赖管理的教程详解

2020/04/16 Python

Python如何实现FTP功能

2020/05/28 Python

Django url 路由匹配过程详解

2021/01/22 Python

大学四年规划书范文

2013/12/27 职场文书

广告传媒专业应届生求职信

2014/03/01 职场文书

大学迎新晚会主持词

2014/03/24 职场文书

精神文明建设先进工作者事迹材料

2014/05/02 职场文书

人事专员岗位说明书

2014/07/29 职场文书

幼儿园毕业典礼家长致辞

2015/07/29 职场文书

让人感觉高大上的讲话稿怎么写？

2019/07/08 职场文书

Lakehouse数据湖并发控制陷阱分析

2022/03/31 Oracle