Python抓取Discuz!用户名脚本代码


Posted in Python onDecember 30, 2013

最近学习Python,于是就用Python写了一个抓取Discuz!用户名的脚本,代码很少但是很搓。思路很简单,就是正则匹配title然后提取用户名写入文本文档。程序以百度站长社区为例(一共有40多万用户),挂在VPS上就没管了,虽然用了延时但是后来发现一共只抓取了50000多个用户名就被封了。。。
代码如下:

# -*- coding: utf-8 -*-
# Author: 天一
# Blog: http://www.90blog.org
# Version: 1.0
# 功能: Python抓取百度站长平台用户名脚本import urllib
import urllib2  
import re
import time
def BiduSpider():
     pattern = re.compile(r'<title>(.*)的个人资料  百度站长社区 </title>')
     uid=1
     thedatas = []
     while uid <400000:
         theUrl = "http://bbs.zhanzhang.baidu.com/home.php?mod=space&uid="+str(uid)
         uid +=1
         theResponse  = urllib2.urlopen(theUrl)
         thePage = theResponse.read()
         #正则匹配用户名
         theFindall = re.findall(pattern,thePage)
         #等待0.5秒,以防频繁访问被禁止
         time.sleep(0.5)
         if theFindall :
              #中文编码防止乱码输出
              thedatas = theFindall[0].decode('utf-8').encode('gbk')
              #写入txt文本文档
              f = open('theUid.txt','a')
              f.writelines(thedatas+'\n')
              f.close()
if __name__ == '__main__':
     BiduSpider()

最终成果如下:

Python抓取Discuz!用户名脚本代码

Python 相关文章推荐
Python 执行字符串表达式函数(eval exec execfile)
Aug 11 Python
利用QT写一个极简单的图形化Python闹钟程序
Apr 07 Python
使用Node.js和Socket.IO扩展Django的实时处理功能
Apr 20 Python
Python进阶_关于命名空间与作用域(详解)
May 29 Python
python 动态加载的实现方法
Dec 22 Python
人脸识别经典算法一 特征脸方法(Eigenface)
Mar 13 Python
浅谈python配置与使用OpenCV踩的一些坑
Apr 02 Python
浅谈django orm 优化
Aug 18 Python
python图形工具turtle绘制国际象棋棋盘
May 23 Python
Python安装与卸载流程详细步骤(图解)
Feb 20 Python
python 瀑布线指标编写实例
Jun 03 Python
Jupyter安装链接aconda实现过程图解
Nov 02 Python
python之模拟鼠标键盘动作具体实现
Dec 30 #Python
python多线程http下载实现示例
Dec 30 #Python
python正则匹配查询港澳通行证办理进度示例分享
Dec 27 #Python
python模拟登录百度代码分享(获取百度贴吧等级)
Dec 27 #Python
python读文件逐行处理的示例代码分享
Dec 27 #Python
python调用cmd复制文件代码分享
Dec 27 #Python
win7安装python生成随机数代码分享
Dec 27 #Python
You might like
让你同时上传 1000 个文件 (一)
2006/10/09 PHP
PHP开发框架总结收藏
2008/04/24 PHP
PHP不用第三变量交换2个变量的值的解决方法
2013/06/02 PHP
验证token、回复图文\文本、推送消息的实用微信类php代码
2016/06/28 PHP
PHP常用操作类之通信数据封装类的实现
2017/07/16 PHP
php计数排序算法的实现代码(附四个实例代码)
2020/03/31 PHP
详解JavaScript函数绑定
2013/08/18 Javascript
js中的数组Array定义与sort方法使用示例
2013/08/29 Javascript
js动态添加表格数据使用insertRow和insertCell实现
2014/05/22 Javascript
javascript的switch用法注意事项分析
2015/02/02 Javascript
在Ubuntu系统上安装Ghost博客平台的教程
2015/06/17 Javascript
js窗口关闭提示信息(兼容IE和firefox)
2015/10/23 Javascript
如何使node也支持从url加载一个module详解
2018/06/05 Javascript
JavaScript笛卡尔积超简单实现算法示例
2018/07/30 Javascript
使用webpack4编译并压缩ES6代码的方法示例
2019/04/24 Javascript
three.js利用射线Raycaster进行碰撞检测
2020/03/12 Javascript
原生JS实现pc端轮播图效果
2020/12/21 Javascript
[33:23]VG vs Pain 2018国际邀请赛小组赛BO2 第二场 8.18
2018/08/19 DOTA
[02:46]完美世界DOTA2联赛PWL DAY4集锦
2020/11/03 DOTA
python函数局部变量用法实例分析
2015/08/04 Python
python实现解数独程序代码
2017/04/12 Python
python中requests使用代理proxies方法介绍
2017/10/25 Python
python2.7 json 转换日期的处理的示例
2018/03/07 Python
简单实现python数独游戏
2018/03/30 Python
python多线程同步实例教程
2019/08/11 Python
python实现批量文件重命名
2019/10/31 Python
五分钟学会HTML5的WebSocket协议
2019/11/22 HTML / CSS
百联网上商城:i百联
2017/01/28 全球购物
Topshop法国官网:英国快速时尚品牌
2018/04/08 全球购物
小学教师岗位职责
2013/11/25 职场文书
前厅部经理岗位职责范文
2014/02/04 职场文书
会计岗位职责范本
2014/03/07 职场文书
小学生寒假家长评语
2014/04/16 职场文书
社会主义核心价值观主题教育活动总结
2015/05/07 职场文书
表彰大会新闻稿
2015/07/17 职场文书
详细聊聊关于Mysql联合查询的那些事儿
2021/10/24 MySQL