一则python3的简单爬虫代码


Posted in Python onMay 26, 2014

不得不说python的上手非常简单。在网上找了一下,大都是python2的帖子,于是随手写了个python3的。代码非常简单就不解释了,直接贴代码。

#test rdp
import urllib.request
import re<br>
#登录用的帐户信息
data={}
data['fromUrl']=''
data['fromUrlTemp']=''
data['loginId']='12345'
data['password']='12345'
user_agent='Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
#登录地址
#url='http://192.168.1.111:8080/loginCheck'
postdata = urllib.parse.urlencode(data) 
postdata = postdata.encode('utf-8')
headers = { 'User-Agent' : user_agent }
#登录 
res = urllib.request.urlopen(url,postdata)
#取得页面html<br>strResult=(res.read().decode('utf-8'))
#用正则表达式取出所有A标签
p = re.compile(r'<a href="(.*?)".*?>(.*?)</a>')
for m in p.finditer(strResult):
    print (m.group(1))#group(1)是href里面的内容,group(2)是a标签里的文字

关于cookie、异常等处理看了一下,没有花时间去处理,毕竟只是想通过写爬虫来学习python。

Python 相关文章推荐
python多线程抓取天涯帖子内容示例
Apr 03 Python
如何在Python中编写并发程序
Feb 27 Python
使用python 对验证码图片进行降噪处理
Dec 18 Python
浅谈tensorflow之内存暴涨问题
Feb 05 Python
Python开发企业微信机器人每天定时发消息实例
Mar 17 Python
Python GUI编程学习笔记之tkinter中messagebox、filedialog控件用法详解
Mar 30 Python
Python接口开发实现步骤详解
Apr 26 Python
python 实现批量图片识别并翻译
Nov 02 Python
python list等分并从等分的子集中随机选取一个数
Nov 16 Python
python简单实现插入排序实例代码
Dec 16 Python
解决python3安装pandas出错的问题
May 20 Python
据Python爬虫不靠谱预测可知今年双十一销售额将超过6000亿元
Nov 11 Python
从零学Python之入门(三)序列
May 25 #Python
从零学Python之入门(二)基本数据类型
May 25 #Python
Python tempfile模块学习笔记(临时文件)
May 25 #Python
Python logging模块学习笔记
May 24 #Python
Python学习笔记之常用函数及说明
May 23 #Python
从零学python系列之教你如何根据图片生成字符画
May 23 #Python
从零学python系列之从文件读取和保存数据
May 23 #Python
You might like
PHP has encountered a Stack overflow问题解决方法
2014/11/03 PHP
ecshop实现smtp发送邮件
2015/02/03 PHP
PHP安全上传图片的方法
2015/03/21 PHP
CodeIgniter配置之routes.php用法实例分析
2016/01/19 PHP
详解PHP用substr函数截取字符串中的某部分
2016/12/03 PHP
Laravel框架中Blade模板的用法示例
2017/08/30 PHP
用Javascript做flash做的事..才完成的一个类.Auntion Action var 0.1
2007/02/23 Javascript
js类中获取外部函数名的方法与代码
2007/09/12 Javascript
JavaScript 格式字符串的应用
2010/03/29 Javascript
javascript实现数字+字母验证码的简单实例
2014/02/10 Javascript
关闭浏览器输入框自动补齐 兼容IE,FF,Chrome等主流浏览器
2014/02/11 Javascript
在JS中操作时间之getUTCMilliseconds()方法的使用
2015/06/10 Javascript
利用Angular2的Observables实现交互控制的方法
2018/12/27 Javascript
了解前端理论:rscss和rsjs
2019/05/23 Javascript
vue 的 solt 子组件过滤过程解析
2019/09/07 Javascript
20多个小事例带你重温ES10新特性(小结)
2019/09/29 Javascript
Vue实现验证码功能
2019/12/03 Javascript
jQuery实现验证用户登录
2019/12/10 jQuery
微信小程序学习总结(四)事件与冒泡实例分析
2020/06/04 Javascript
uni-app使用countdown插件实现倒计时
2020/11/01 Javascript
讲解Python中运算符使用时的优先级
2015/05/14 Python
Python的迭代器和生成器
2015/07/29 Python
对Python的Django框架中的项目进行单元测试的方法
2016/04/11 Python
浅谈Python NLP入门教程
2017/12/25 Python
matplotlib给子图添加图例的方法
2018/08/03 Python
python函数与方法的区别总结
2019/06/23 Python
创建Shapefile文件并写入数据的例子
2019/11/26 Python
Vans英国官方网站:美国南加州的原创极限运动潮牌
2017/01/20 全球购物
公司活动邀请函
2014/01/24 职场文书
高三学生评语大全
2014/04/25 职场文书
竞聘演讲稿精彩开头和结尾
2014/05/14 职场文书
十佳党员事迹材料
2014/08/28 职场文书
计算机实训报告总结
2014/11/05 职场文书
投诉书范文
2015/07/02 职场文书
Spring Security使用单点登录的权限功能
2022/04/03 Java/Android
Golang 结构体数据集合
2022/04/22 Golang