编程 Python

Python代理IP爬虫的新手使用教程

Posted in Python onSeptember 05, 2019

前言

Python爬虫要经历爬虫、爬虫被限制、爬虫反限制的过程。当然后续还要网页爬虫限制优化，爬虫再反限制的一系列道高一尺魔高一丈的过程。爬虫的初级阶段，添加headers和ip代理可以解决很多问题。

本人自己在爬取豆瓣读书的时候,就以为爬取次数过多,直接被封了IP.后来就研究了代理IP的问题.

(当时不知道什么情况,差点心态就崩了...),下面给大家介绍一下我自己代理IP爬取数据的问题,请大家指出不足之处.

问题

这是我的IP被封了,一开始好好的,我还以为是我的代码问题了

Python代理IP爬虫的新手使用教程

思路：

从网上查找了一些关于爬虫代理IP的资料,得到下面的思路

爬取一些IP,过滤掉不可用.
在requests的请求的proxies参数加入对应的IP.
继续爬取.
收工
好吧,都是废话,理论大家都懂,上面直接上代码...

思路有了,动手起来.

运行环境

Python 3.7, Pycharm

这些需要大家直接去搭建好环境...

准备工作

爬取IP地址的网站(国内高匿代理)
校验IP地址的网站
你之前被封IP的py爬虫脚本...

上面的网址看个人的情况来选取

爬取IP的完整代码

PS:简单的使用bs4获取IP和端口号,没有啥难度,里面增加了一个过滤不可用IP的逻辑

关键地方都有注释了

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
# @Time : 2018/11/22 
# @Author : liangk
# @Site :
# @File : auto_archive_ios.py
# @Software: PyCharm


import requests
from bs4 import BeautifulSoup
import json


class GetIp(object):
 """抓取代理IP"""

 def __init__(self):
 """初始化变量"""
 self.url = 'http://www.xicidaili.com/nn/'
 self.check_url = 'https://www.ip.cn/'
 self.ip_list = []

 @staticmethod
 def get_html(url):
 """请求html页面信息"""
 header = {
  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'
 }
 try:
  request = requests.get(url=url, headers=header)
  request.encoding = 'utf-8'
  html = request.text
  return html
 except Exception as e:
  return ''

 def get_available_ip(self, ip_address, ip_port):
 """检测IP地址是否可用"""
 header = {
  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'
 }
 ip_url_next = '://' + ip_address + ':' + ip_port
 proxies = {'http': 'http' + ip_url_next, 'https': 'https' + ip_url_next}
 try:
  r = requests.get(self.check_url, headers=header, proxies=proxies, timeout=3)
  html = r.text
 except:
  print('fail-%s' % ip_address)
 else:
  print('success-%s' % ip_address)
  soup = BeautifulSoup(html, 'lxml')
  div = soup.find(class_='well')
  if div:
  print(div.text)
  ip_info = {'address': ip_address, 'port': ip_port}
  self.ip_list.append(ip_info)

 def main(self):
 """主方法"""
 web_html = self.get_html(self.url)
 soup = BeautifulSoup(web_html, 'lxml')
 ip_list = soup.find(id='ip_list').find_all('tr')
 for ip_info in ip_list:
  td_list = ip_info.find_all('td')
  if len(td_list) > 0:
  ip_address = td_list[1].text
  ip_port = td_list[2].text
  # 检测IP地址是否有效
  self.get_available_ip(ip_address, ip_port)
 # 写入有效文件
 with open('ip.txt', 'w') as file:
  json.dump(self.ip_list, file)
 print(self.ip_list)


# 程序主入口
if __name__ == '__main__':
 get_ip = GetIp()
 get_ip.main()

使用方法完整代码

PS: 主要是通过使用随机的IP来爬取,根据request_status来判断这个IP是否可以用.

为什么要这样判断?

主要是虽然上面经过了过滤,但是不代表在你爬取的时候是可以用的,所以还是得多做一个判断.

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
# @Time : 2018/11/22 
# @Author : liangk
# @Site :
# @File : get_douban_books.py
# @Software: PyCharm

from bs4 import BeautifulSoup
import datetime
import requests
import json
import random

ip_random = -1
article_tag_list = []
article_type_list = []


def get_html(url):
 header = {
  'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36'
 }
 global ip_random
 ip_rand, proxies = get_proxie(ip_random)
 print(proxies)
 try:
  request = requests.get(url=url, headers=header, proxies=proxies, timeout=3)
 except:
  request_status = 500
 else:
  request_status = request.status_code
 print(request_status)
 while request_status != 200:
  ip_random = -1
  ip_rand, proxies = get_proxie(ip_random)
  print(proxies)
  try:
   request = requests.get(url=url, headers=header, proxies=proxies, timeout=3)
  except:
   request_status = 500
  else:
   request_status = request.status_code
  print(request_status)
 ip_random = ip_rand
 request.encoding = 'gbk'
 html = request.content
 print(html)
 return html


def get_proxie(random_number):
 with open('ip.txt', 'r') as file:
  ip_list = json.load(file)
  if random_number == -1:
   random_number = random.randint(0, len(ip_list) - 1)
  ip_info = ip_list[random_number]
  ip_url_next = '://' + ip_info['address'] + ':' + ip_info['port']
  proxies = {'http': 'http' + ip_url_next, 'https': 'https' + ip_url_next}
  return random_number, proxies


# 程序主入口
if __name__ == '__main__':
 """只是爬取了书籍的第一页,按照评价排序"""
 start_time = datetime.datetime.now()
 url = 'https://book.douban.com/tag/?view=type&icn=index-sorttags-all'
 base_url = 'https://book.douban.com/tag/'
 html = get_html(url)
 soup = BeautifulSoup(html, 'lxml')
 article_tag_list = soup.find_all(class_='tag-content-wrapper')
 tagCol_list = soup.find_all(class_='tagCol')

 for table in tagCol_list:
  """ 整理分析数据 """
  sub_type_list = []
  a = table.find_all('a')
  for book_type in a:
   sub_type_list.append(book_type.text)
  article_type_list.append(sub_type_list)

 for sub in article_type_list:
  for sub1 in sub:
   title = '==============' + sub1 + '=============='
   print(title)
   print(base_url + sub1 + '?start=0' + '&type=S')
   with open('book.text', 'a', encoding='utf-8') as f:
    f.write('\n' + title + '\n')
    f.write(url + '\n')
   for start in range(0, 2):
    # (start * 20) 分页是0 20 40 这样的
    # type=S是按评价排序
    url = base_url + sub1 + '?start=%s' % (start * 20) + '&type=S'
    html = get_html(url)
    soup = BeautifulSoup(html, 'lxml')
    li = soup.find_all(class_='subject-item')
    for div in li:
     info = div.find(class_='info').find('a')
     img = div.find(class_='pic').find('img')
     content = '书名:<%s>' % info['title'] + ' 书本图片:' + img['src'] + '\n'
     print(content)
     with open('book.text', 'a', encoding='utf-8') as f:
      f.write(content)

 end_time = datetime.datetime.now()
 print('耗时: ', (end_time - start_time).seconds)

为什么选择国内高匿代理!

Python代理IP爬虫的新手使用教程

总结

使用这样简单的代理IP,基本上就可以应付在爬爬爬着被封IP的情况了.而且没有使用自己的IP,间接的保护?!?!

大家有其他的更加快捷的方法，欢迎大家可以拿出来交流和讨论，谢谢。

好了，以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，谢谢大家对三水点靠木的支持。

Python代理IP爬虫的新手使用教程

- Author -

lxiaok

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python处理大数字的方法

May 27 Python

python中getaddrinfo()基本用法实例分析

Jun 28 Python

Python正则表达式使用经典实例

Jun 21 Python

Python 实现文件的全备份和差异备份详解

Dec 27 Python

python实现外卖信息管理系统

Jan 11 Python

Python API 自动化实战详解(纯代码)

Jun 11 Python

django-rest-swagger对API接口注释的方法

Aug 29 Python

Python调用scp向服务器上传文件示例

Dec 22 Python

Tensorflow 实现将图像与标签数据转化为tfRecord文件

Feb 17 Python

python3 实现口罩抽签的功能

Mar 11 Python

如何通过命令行进入python

Jul 06 Python

python自动化办公操作PPT的实现

Feb 05 Python

关于Python内存分配时的小秘密分享

Sep 05 #Python

python global关键字的用法详解

Sep 05 #Python

python requests证书问题解决

Sep 05 #Python

Python使用scipy模块实现一维卷积运算示例

Sep 05 #Python

Python图像处理模块ndimage用法实例分析

Sep 05 #Python

Pycharm+django2.2+python3.6+MySQL实现简单的考试报名系统

Sep 05 #Python

PyCharm搭建Spark开发环境的实现步骤

Sep 05 #Python

You might like

PHP及Zend Engine的线程安全模型分析

2011/11/10 PHP

Php header()函数语法及使用代码

2013/11/04 PHP

php实现根据字符串生成对应数组的方法

2014/09/22 PHP

PHP中trim()函数简单使用指南

2015/04/16 PHP

PHP实现根据时间戳获取周几的方法

2016/02/26 PHP

php使用Jpgraph创建3D饼形图效果示例

2017/02/15 PHP

PHP使用数组实现矩阵数学运算的方法示例

2017/05/29 PHP

PHP消息队列实现及应用详解【队列处理订单系统和配送系统】

2019/05/20 PHP

HTML5如何适配 iPhone IOS 底部黑条

2021/03/09 HTML / CSS

HR vs CL BO3 第二场 2.13

2021/03/10 DOTA

用javascript实现在小方框中浏览大图的代码

2007/08/14 Javascript

JavaScript入门教程(5) js Screen屏幕对象

2009/01/31 Javascript

animate动画示例(泪奔的小孩)及stop和delay的使用

2013/05/06 Javascript

同域jQuery(跨)iframe操作DOM(示例代码)

2013/12/13 Javascript

详解JavaScript逻辑Not运算符

2015/12/04 Javascript

关于JavaScript限制字数的输入框的那些事

2016/08/14 Javascript

基于jquery实现五星好评

2017/11/18 jQuery

Vue组件通信之Bus的具体使用

2017/12/28 Javascript

详解vue.js根据不同环境(正式、测试)打包到不同目录

2018/07/13 Javascript

原生JS利用transform实现banner的无限滚动示例代码

2020/06/15 Javascript

nuxt 服务器渲染动态设置 title和seo关键字的操作

2020/11/05 Javascript

用实例详解Python中的Django框架中prefetch_related()函数对数据库查询的优化

2015/04/01 Python

详解如何利用Cython为Python代码加速

2018/01/27 Python

python编程嵌套函数实例代码

2018/02/11 Python

django foreignkey外键使用的例子相当于left join

2019/08/06 Python

Python单元测试与测试用例简析

2019/11/09 Python

python时间与Unix时间戳相互转换方法详解

2020/02/13 Python

django使用JWT保存用户登录信息

2020/04/22 Python

基于Python爬取素材网站音频文件

2020/10/21 Python

大学同学十年聚会感言

2014/02/21 职场文书

班主任寄语大全

2014/04/04 职场文书

报效祖国演讲稿

2014/09/15 职场文书

2014普法依法治理工作总结

2014/12/18 职场文书

入党现实表现材料

2014/12/23 职场文书

劳模事迹材料范文

2014/12/24 职场文书

Java基础之详解HashSet的使用方法

2021/06/30 Java/Android