编程 Python

python爬虫刷访问量 2019 7月

Posted in Python onAugust 01, 2019

看着自己少得可怜的访问量，突然有一个想用爬虫刷访问量的想法，主要也是抱着尝试的心态，学习学习。

其实市面上有一些软件可以代刷流量比如流量精灵，使用感确实比我们自己写的代码要好一些

第一版：网上借鉴了一下以下代码运行在 python3

import urllib.request
import time
# 使用build_opener()是为了让python程序模仿浏览器进行访问
opener = urllib.request.build_opener()
opener.addheaders = [('User-agent', 'Mozilla/5.0')]

# 专刷某个页面
print('开始刷了哦：')
tempUrl = 'https://blog.csdn.net/Lin_QC/article/details/88966839'
for j in range(2000):
 try:
  opener.open(tempUrl)
  time.sleep(7)
  print('%d %s' % (j, tempUrl))
 except urllib.error.HTTPError:
  print('urllib.error.HTTPError')
  time.sleep(1)
 except urllib.error.URLError:
  print('urllib.error.URLError')
  time.sleep(1)

该代码主要就是利用爬虫打开网页来进行访问量的刷新，但是，该方法遇到了瓶颈，当刷新到一定访问量时，csdn的服务器会阻止该ip的访问，也就刷新不了访问量了。

所以，也就衍生了第二版。

我们可以在 https://www.xicidaili.com 网站上看到很多代理ip，使用这些代理ip，可以防止csdn服务器阻止访问。

首先，编写了一个获取代理ip的文件，经我本人实验，国内http代理ip较为稳定，所以我们爬取
'https://www.xicidaili.com/wt/1

页面的代理ip信息，并将它们存储在proxy文件里，以下代码是基于 python2的，注意不要弄错版本

proxy_IP.py文件
import urllib2
import BeautifulSoup

User_Agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0'
header = {}
header['User-Agent'] = User_Agent

url = 'https://www.xicidaili.com/wt/1'
req = urllib2.Request(url, headers=header)
res = urllib2.urlopen(req).read()
soup = BeautifulSoup.BeautifulSoup(res)
ips = soup.findAll('tr')
f = open("proxy", "w")
for x in range(1,len(ips)):
 ip = ips[x]
 tds = ip.findAll("td")
 ip_temp = tds[1].contents[0]+","+tds[2].contents[0]+"\n"

 print tds[1].contents[0]+"\t"+tds[2].contents[0]
 f.write(ip_temp)

通过执行以上代码，我们就可以获得大量代理ip，接下来就是使用这些ip进行对博客的访问。

csdnfake.py
import urllib2
import socket
import time
import random

socket.setdefaulttimeout(3)

user_agent_list = [
 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
      'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3',
 'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50',
 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50',
 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)',
 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)',
 'Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1',
 'Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11',
 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11',
 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SE 2.X MetaSr 1.0; SE 2.X MetaSr 1.0; .NET CLR 2.0.50727; SE 2.X MetaSr 1.0)',
 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0',
 'Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1',
]
f = open("proxy")
lines = f.readlines()
proxys = []

for i in range(0,len(lines)):
 ip = lines[i].strip().split(",")
 proxy_host = "http://"+ip[0]+":"+ip[1]
 print "http://"+ip[0]+":"+ip[1]
 proxy_temp = {"http": proxy_host}
 proxys.append(proxy_temp)
urls = {"https://blog.csdn.net/Lin_QC/article/details/88966839",
  "https://blog.csdn.net/Lin_QC/article/details/88930018",
  "https://blog.csdn.net/Lin_QC/article/details/88642949",
  "https://blog.csdn.net/Lin_QC/article/details/84568170",
  "https://blog.csdn.net/Lin_QC/article/details/84451279",
  "https://blog.csdn.net/Lin_QC/article/details/84927503",
  }

j=1
for i in range(100):
 for proxy in proxys:
  for url in urls:
   try:
    user_agent = random.choice(user_agent_list)
    proxy_support = urllib2.ProxyHandler(proxy)
    opener = urllib2.build_opener(proxy_support, urllib2.HTTPHandler)
    urllib2.install_opener(opener)
    req = urllib2.Request(url)
    c = urllib2.urlopen(req)
    print ("sucessful",j)
    j+=1
    time.sleep(5) 
   except Exception, e:
    print proxy
    print e
    continue

user_agent_list是一堆浏览器的代理头，可以模仿浏览器访问博客。

每次访问休息五秒，主要是因为过快的访问对csdn无效。

效果，刷过访问量的博客和没刷的差距明显

总结

以上所述是小编给大家介绍的python爬虫刷访问量 2019 7月,希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持！
如果你觉得本文对你有帮助，欢迎转载，烦请注明出处，谢谢！

python爬虫刷访问量 2019 7月

- Author -

Lin_QC

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python读取浮点数和读取文本文件示例

May 06 Python

跟老齐学Python之开始真正编程

Sep 12 Python

Python新手实现2048小游戏

Mar 31 Python

Django项目开发中cookies和session的常用操作分析

Jul 03 Python

使用Python-OpenCV向图片添加噪声的实现(高斯噪声、椒盐噪声)

May 28 Python

pycharm实现在虚拟环境中引入别人的项目

Mar 09 Python

Python多线程操作之互斥锁、递归锁、信号量、事件实例详解

Mar 24 Python

python安装第三方库如xlrd的方法

Oct 31 Python

python3.9和pycharm的安装教程并创建简单项目的步骤

Feb 03 Python

利用python做表格数据处理

Apr 13 Python

Python 数据可视化之Matplotlib详解

Nov 02 Python

Python Pygame实战在打砖块游戏的实现

Mar 17 Python

用Cython加速Python到“起飞”(推荐)

Aug 01 #Python

Python爬取视频(其实是一篇福利)过程解析

Aug 01 #Python

flask框架jinja2模板与模板继承实例分析

Aug 01 #Python

Win10环境python3.7安装dlib模块趟过的坑

Aug 01 #Python

python爬虫解决验证码的思路及示例

Aug 01 #Python

Django多数据库的实现过程详解

Aug 01 #Python

Python解决pip install时出现的Could not fetch URL问题

Aug 01 #Python

You might like

yii框架表单模型使用及以数组形式提交表单数据示例

2014/04/30 PHP

Zend Framework教程之Zend_Registry对象用法分析

2016/03/22 PHP

PHP架构及原理知识点详解

2019/12/22 PHP

TP3.2.3框架使用CKeditor编辑器在页面中上传图片的方法分析

2019/12/31 PHP

Javascript 的addEventListener()及attachEvent()区别分析

2009/05/21 Javascript

javascript 简练的几个函数

2009/08/29 Javascript

用JavaScript修改CSS属性的代码

2013/05/06 Javascript

一个CSS+jQuery实现的放大缩小动画效果

2014/02/19 Javascript

js判断浏览器类型为ie6时不执行

2014/06/15 Javascript

js实现简易的单数字随机抽奖（0-9）

2020/03/19 Javascript

由简入繁实现Jquery树状结构的方法(推荐)

2016/06/10 Javascript

BootStrap智能表单demo示例详解

2016/06/13 Javascript

探索Javascript中this的奥秘

2016/12/11 Javascript

Bootstrap CSS布局之列表

2016/12/15 Javascript

JS路由跳转的简单实现代码

2017/09/21 Javascript

Angular2仿照微信UI实现9张图片上传和预览的示例代码

2017/10/19 Javascript

jQuery 实现批量提交表格多行数据的方法

2018/08/09 jQuery

vuejs2.0运用原生js实现简单拖拽元素功能

2020/08/21 Javascript

微信小程序复选框实现多选一功能过程解析

2020/02/14 Javascript

JavaScript命令模式原理与用法实例详解

2020/03/10 Javascript

python list中append()与extend()用法分享

2013/03/24 Python

Python读写ini文件的方法

2015/05/28 Python

Python用模块pytz来转换时区

2016/08/19 Python

NLTK 3.2.4 环境搭建教程

2018/09/19 Python

对python中url参数编码与解码的实例详解

2019/07/25 Python

python多线程同步实例教程

2019/08/11 Python

基于Tensorflow一维卷积用法详解

2020/05/22 Python

Python word文本自动化操作实现方法解析

2020/11/05 Python

Marc Jacobs彩妆官网：Marc Jacobs Beauty

2017/07/03 全球购物

澳大利亚便宜的家庭购物网站：CrazySales

2018/02/06 全球购物

波兰家具和室内装饰品购物网站：Vivre

2018/04/10 全球购物

澳大利亚在线性感内衣商店：Fantasy Lingerie

2021/02/07 全球购物

体育教育专业毕业生自荐信

2013/11/15 职场文书

北京英文导游词

2015/02/12 职场文书

深入讲解Vue中父子组件通信与事件触发

2022/03/22 Vue.js

sql注入报错之注入原理实例解析

2022/06/10 MySQL