Python抓取Discuz!用户名脚本代码


Posted in Python onDecember 30, 2013

最近学习Python,于是就用Python写了一个抓取Discuz!用户名的脚本,代码很少但是很搓。思路很简单,就是正则匹配title然后提取用户名写入文本文档。程序以百度站长社区为例(一共有40多万用户),挂在VPS上就没管了,虽然用了延时但是后来发现一共只抓取了50000多个用户名就被封了。。。
代码如下:

# -*- coding: utf-8 -*-
# Author: 天一
# Blog: http://www.90blog.org
# Version: 1.0
# 功能: Python抓取百度站长平台用户名脚本import urllib
import urllib2  
import re
import time
def BiduSpider():
     pattern = re.compile(r'<title>(.*)的个人资料  百度站长社区 </title>')
     uid=1
     thedatas = []
     while uid <400000:
         theUrl = "http://bbs.zhanzhang.baidu.com/home.php?mod=space&uid="+str(uid)
         uid +=1
         theResponse  = urllib2.urlopen(theUrl)
         thePage = theResponse.read()
         #正则匹配用户名
         theFindall = re.findall(pattern,thePage)
         #等待0.5秒,以防频繁访问被禁止
         time.sleep(0.5)
         if theFindall :
              #中文编码防止乱码输出
              thedatas = theFindall[0].decode('utf-8').encode('gbk')
              #写入txt文本文档
              f = open('theUid.txt','a')
              f.writelines(thedatas+'\n')
              f.close()
if __name__ == '__main__':
     BiduSpider()

最终成果如下:

Python抓取Discuz!用户名脚本代码

Python 相关文章推荐
Python发送email的3种方法
Apr 28 Python
python实现红包裂变算法
Feb 16 Python
flask使用session保存登录状态及拦截未登录请求代码
Jan 19 Python
Python实现base64编码的图片保存到本地功能示例
Jun 22 Python
Python中format()格式输出全解
Apr 12 Python
对Python的交互模式和直接运行.py文件的区别详解
Jun 29 Python
django多文件上传,form提交,多对多外键保存的实例
Aug 06 Python
flask框架蓝图和子域名配置详解
Jan 25 Python
Scrapy框架介绍之Puppeteer渲染的使用
Jun 19 Python
在 Windows 下搭建高效的 django 开发环境的详细教程
Jul 27 Python
Django项目配置Memcached和Redis, 缓存选择哪个更有优势
Apr 06 Python
Python selenium模拟网页点击爬虫交管12123违章数据
May 26 Python
python之模拟鼠标键盘动作具体实现
Dec 30 #Python
python多线程http下载实现示例
Dec 30 #Python
python正则匹配查询港澳通行证办理进度示例分享
Dec 27 #Python
python模拟登录百度代码分享(获取百度贴吧等级)
Dec 27 #Python
python读文件逐行处理的示例代码分享
Dec 27 #Python
python调用cmd复制文件代码分享
Dec 27 #Python
win7安装python生成随机数代码分享
Dec 27 #Python
You might like
消息持续发送的完整例子
2006/10/09 PHP
php正则表达匹配中文问题分析小结
2012/03/25 PHP
php中实现进程锁与多进程的方法
2016/09/18 PHP
php读取出一个文件夹及其子文件夹下所有文件的方法示例
2017/06/15 PHP
Aster vs KG BO3 第三场2.19
2021/03/10 DOTA
准确获得页面、窗口高度及宽度的JS
2006/11/26 Javascript
网页中实现浏览器的最大,最小化和关闭按钮
2007/03/12 Javascript
javascript实现手机震动API代码
2015/08/05 Javascript
轻松学习jQuery插件EasyUI EasyUI实现树形网络基本操作(2)
2015/11/30 Javascript
vueJS简单的点击显示与隐藏的效果【实现代码】
2016/05/03 Javascript
jQuery 移动端拖拽(模块化开发,触摸事件,webpack)
2016/10/28 Javascript
Javascript之面向对象--接口
2016/12/02 Javascript
新闻上下滚动jquery 超简洁(必看篇)
2017/01/21 Javascript
JavaScript实现选中文字提示新浪微博分享效果
2017/06/15 Javascript
jQuery中过滤器的基本用法示例
2017/10/11 jQuery
electron demo项目npm install安装失败的解决方法
2018/02/06 Javascript
AngularJS中重新加载当前路由页面的方法
2018/03/09 Javascript
vue 组件中slot插口的具体用法
2018/04/03 Javascript
vue项目中将element-ui table表格写成组件的实现代码
2019/06/12 Javascript
详解JavaScript 浮点数运算的精度问题
2019/07/23 Javascript
原生小程序封装跑马灯效果
2020/10/21 Javascript
小小聊天室Python代码实现
2016/08/17 Python
python jieba分词并统计词频后输出结果到Excel和txt文档方法
2018/02/11 Python
Python抓新型冠状病毒肺炎疫情数据并绘制全国疫情分布的代码实例
2020/02/05 Python
Django REST 异常处理详解
2020/07/15 Python
最新的小工具和卓越的产品设计:Oh That Tech!
2019/08/07 全球购物
法国床上用品商店:La Compagnie du lit
2019/12/26 全球购物
Linux如何压缩可执行文件
2014/03/27 面试题
个人自荐书
2013/12/20 职场文书
人事主管岗位职责说明书
2014/07/30 职场文书
党员学习中共十八大思想报告
2014/09/12 职场文书
保研导师推荐信
2015/03/25 职场文书
结婚典礼致辞
2015/07/28 职场文书
2015年社区重阳节活动总结
2015/07/30 职场文书
运动会广播稿300字
2015/08/19 职场文书
入党转正申请书范文
2019/05/20 职场文书