编程 Python

python爬虫增加访问量的方法

Posted in Python onAugust 22, 2019

看着自己少得可怜的访问量，突然有一个想用爬虫刷访问量的想法，主要也是抱着尝试的心态，学习学习。

其实市面上有一些软件可以代刷流量比如流量精灵，使用感确实比我们自己写的代码要好一些

第一版：网上借鉴了一下以下代码运行在 python3

import urllib.request
import time
# 使用build_opener()是为了让python程序模仿浏览器进行访问
opener = urllib.request.build_opener()
opener.addheaders = [('User-agent', 'Mozilla/5.0')]
# 专刷某个页面
print('开始刷了哦：')
tempUrl = 'https://blog.csdn.net/Lin_QC/article/details/88966839'
for j in range(2000):
  try:
    opener.open(tempUrl)
    time.sleep(7)
    print('%d %s' % (j, tempUrl))
  except urllib.error.HTTPError:
    print('urllib.error.HTTPError')
    time.sleep(1)
  except urllib.error.URLError:
    print('urllib.error.URLError')
    time.sleep(1)

该代码主要就是利用爬虫打开网页来进行访问量的刷新，但是，该方法遇到了瓶颈，当刷新到一定访问量时，csdn的服务器会阻止该ip的访问，也就刷新不了访问量了。

所以，也就衍生了第二版。

我们可以在 https://www.xicidaili.com 网站上看到很多代理ip，使用这些代理ip，可以防止csdn服务器阻止访问。

首先，编写了一个获取代理ip的文件，经我本人实验，国内http代理ip较为稳定，所以我们爬取

'https://www.xicidaili.com/wt/1

页面的代理ip信息，并将它们存储在proxy文件里，以下代码是基于 python2的，注意不要弄错版本

proxy_IP.py文件

import urllib2
import BeautifulSoup
User_Agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0'
header = {}
header['User-Agent'] = User_Agent
url = 'https://www.xicidaili.com/wt/1'
req = urllib2.Request(url, headers=header)
res = urllib2.urlopen(req).read()
soup = BeautifulSoup.BeautifulSoup(res)
ips = soup.findAll('tr')
f = open("proxy", "w")
for x in range(1,len(ips)):
  ip = ips[x]
  tds = ip.findAll("td")
  ip_temp = tds[1].contents[0]+","+tds[2].contents[0]+"\n"
  print tds[1].contents[0]+"\t"+tds[2].contents[0]
  f.write(ip_temp)

通过执行以上代码，我们就可以获得大量代理ip，接下来就是使用这些ip进行对博客的访问。

csdnfake.py

import urllib2
import socket
import time
import random
socket.setdefaulttimeout(3)
user_agent_list = [
  'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
           'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3',
  'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50',
  'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50',
  'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)',
  'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)',
  'Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1',
  'Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11',
  'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11',
  'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SE 2.X MetaSr 1.0; SE 2.X MetaSr 1.0; .NET CLR 2.0.50727; SE 2.X MetaSr 1.0)',
  'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0',
  'Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1',
]
f = open("proxy")
lines = f.readlines()
proxys = []
 
for i in range(0,len(lines)):
  ip = lines[i].strip().split(",")
  proxy_host = "http://"+ip[0]+":"+ip[1]
  print "http://"+ip[0]+":"+ip[1]
  proxy_temp = {"http": proxy_host}
  proxys.append(proxy_temp)
urls = {"https://blog.csdn.net/Lin_QC/article/details/88966839",
    "https://blog.csdn.net/Lin_QC/article/details/88930018",
    "https://blog.csdn.net/Lin_QC/article/details/88642949",
    "https://blog.csdn.net/Lin_QC/article/details/84568170",
    "https://blog.csdn.net/Lin_QC/article/details/84451279",
    "https://blog.csdn.net/Lin_QC/article/details/84927503",
    }
 
j=1
for i in range(100):
  for proxy in proxys:
    for url in urls:
      try:
        user_agent = random.choice(user_agent_list)
        proxy_support = urllib2.ProxyHandler(proxy)
        opener = urllib2.build_opener(proxy_support, urllib2.HTTPHandler)
        urllib2.install_opener(opener)
        req = urllib2.Request(url)
        c = urllib2.urlopen(req)
        print ("sucessful",j)
        j+=1
        time.sleep(5) 
      except Exception, e:
        print proxy
        print e
        continue

user_agent_list是一堆浏览器的代理头，可以模仿浏览器访问博客。

每次访问休息五秒，主要是因为过快的访问对csdn无效。

总结

以上所述是小编给大家介绍的python爬虫增加访问量的方法，希望对大家有所帮助，如果大家有任何疑问欢迎给我留言，小编会及时回复大家的！

python爬虫增加访问量的方法

- Author -

Lin_QC

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python中global与nonlocal比较

Nov 21 Python

Python实现动态加载模块、类、函数的方法分析

Jul 18 Python

python+ffmpeg批量去视频开头的方法

Jan 09 Python

python实现年会抽奖程序

Jan 22 Python

python中比较两个列表的实例方法

Jul 04 Python

python暴力解压rar加密文件过程详解

Jul 05 Python

解决Python3下map函数的显示问题

Dec 04 Python

PYQT5开启多个线程和窗口,多线程与多窗口的交互实例

Dec 13 Python

Python数据存储之 h5py详解

Dec 26 Python

Python利用PyPDF2库获取PDF文件总页码实例

Apr 03 Python

详解在Python中使用Torchmoji将文本转换为表情符号

Jul 27 Python

pandas 数据类型转换的实现

Dec 29 Python

Python中字典与恒等运算符的用法分析

Aug 22 #Python

python实现通过flask和前端进行数据收发

Aug 22 #Python

python2.7的flask框架之引用js&css等静态文件的实现方法

Aug 22 #Python

PyQt+socket实现远程操作服务器的方法示例

Aug 22 #Python

使用python os模块复制文件到指定文件夹的方法

Aug 22 #Python

详解Django-channels 实现WebSocket实例

Aug 22 #Python

解决python3 requests headers参数不能有中文的问题

Aug 21 #Python

You might like

PHP开发框架kohana中处理ajax请求的例子

2014/07/14 PHP

PHP管理依赖(dependency)关系工具 Composer的自动加载（autoload）

2014/08/18 PHP

PHP 中 Orientation 属性判断上传图片是否需要旋转

2015/10/16 PHP

PHP版本升级到7.x后wordpress的一些修改及wordpress技巧

2015/12/25 PHP

Yii2框架配置文件(Application属性)与调试技巧实例分析

2019/05/27 PHP

js 模拟气泡屏保效果代码

2010/07/10 Javascript

JS分割字符串并放入数组的函数

2011/07/04 Javascript

javascript禁用Tab键脚本实例

2013/11/22 Javascript

$("").click与onclick的区别示例介绍

2014/09/25 Javascript

js使用循环清空某个div中的input标签值

2014/09/29 Javascript

使用JQuery FancyBox插件实现图片展示特效

2015/11/16 Javascript

JS正则表达式验证账号、手机号、电话和邮箱是否合法

2017/03/08 Javascript

详解Vue 开发模式下跨域问题

2017/06/06 Javascript

React Native之TextInput组件解析示例

2017/08/22 Javascript

JavaScrip数组删除特定元素的几种方法总结

2017/09/06 Javascript

js中split()方法得到的数组长度问题

2018/07/19 Javascript

详解Vue.js和layui日期控件冲突问题解决办法

2019/07/25 Javascript

Vue列表如何实现滚动到指定位置样式改变效果

2020/05/09 Javascript

JS实现电脑虚拟键盘的操作

2020/06/24 Javascript

js实现3D旋转效果

2020/08/18 Javascript

vue组件添加事件@click.native操作

2020/10/30 Javascript

python 测试实现方法

2008/12/24 Python

学习python 之编写简单乘法运算题

2016/02/27 Python

Python基于opencv调用摄像头获取个人图片的实现方法

2019/02/21 Python

Python利用requests模块下载图片实例代码

2019/08/12 Python

Python爬虫使用代理IP的实现

2019/10/27 Python

详解Python中list[::-1]的几种用法

2020/11/16 Python

财务与信息服务专业推荐信

2013/11/28 职场文书

会计应聘求职信范文

2013/12/17 职场文书

周年庆典邀请函范文

2014/01/23 职场文书

2014年惩防体系建设工作总结

2014/12/01 职场文书

水知道答案观后感

2015/06/08 职场文书

导游词之藏龙百瀑景区

2019/12/30 职场文书

解决Pytorch修改预训练模型时遇到key不匹配的情况

2021/06/05 Python

浅谈Java实现分布式事务的三种方案

2021/06/11 Java/Android

使用CSS实现黑白格背景效果

2022/06/01 HTML / CSS