Python3.4编程实现简单抓取爬虫功能示例


Posted in Python onSeptember 14, 2017

本文实例讲述了Python3.4编程实现简单抓取爬虫功能。分享给大家供大家参考,具体如下:

import urllib.request
import urllib.parse
import re
import urllib.request,urllib.parse,http.cookiejar
import time
def getHtml(url):
  cj=http.cookiejar.CookieJar()
  opener=urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
  opener.addheaders=[('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.101 Safari/537.36'),('Cookie','4564564564564564565646540')]
  urllib.request.install_opener(opener)
  page = urllib.request.urlopen(url)
  html = page.read()
  return html
#print ( html)
#html = getHtml("http://weibo.com/")
def getimg(html):
  html = html.decode('utf-8')
  reg='"screen_name":"(.*?)"'
  imgre = re.compile(reg)
  src=re.findall(imgre,html)
  return src
#print ("",getimg(html))
uid=['2808675432','3888405676','2628551531','2808587400']
for a in list(uid):
  print (getimg(getHtml("http://weibo.com/"+a)))
  time.sleep(1)

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Python Socket编程入门教程
Jul 11 Python
详解Django缓存处理中Vary头部的使用
Jul 24 Python
在Python的while循环中使用else以及循环嵌套的用法
Oct 14 Python
python 内置函数filter
Jun 01 Python
Python中turtle作图示例
Nov 15 Python
使用python实现快速搭建简易的FTP服务器
Sep 12 Python
Python socket实现多对多全双工通信的方法
Feb 13 Python
pycharm解决关闭flask后依旧可以访问服务的问题
Apr 03 Python
Python xpath表达式如何实现数据处理
Jun 13 Python
Python中zipfile压缩文件模块的基本使用教程
Jun 14 Python
Jmeter调用Python脚本实现参数互相传递的实现
Jan 22 Python
如何使用Python提取Chrome浏览器保存的密码
Jun 09 Python
python实现八大排序算法(1)
Sep 14 #Python
python实现简单聊天应用 python群聊和点对点均实现
Sep 14 #Python
Python实现购物系统(示例讲解)
Sep 13 #Python
python模块之sys模块和序列化模块(实例讲解)
Sep 13 #Python
python模块之time模块(实例讲解)
Sep 13 #Python
python difflib模块示例讲解
Sep 13 #Python
Python网络编程 Python套接字编程
Sep 13 #Python
You might like
PHP使用curl模拟post上传及接收文件的方法
2016/03/04 PHP
什么是MEAN?JavaScript编程中的MEAN是什么意思?
2014/12/18 Javascript
javascript实现瀑布流自适应遇到的问题及解决方案
2015/01/28 Javascript
JS+CSS实现的日本门户网站经典选项卡导航效果
2015/09/27 Javascript
js使用cookie记录用户名的方法
2015/11/26 Javascript
Javascript使用SWFUpload进行多文件上传
2016/11/16 Javascript
JS碰撞运动实现方法详解
2016/12/15 Javascript
使用BootStrap建立响应式网页——通栏轮播图(carousel)
2016/12/21 Javascript
ajax 提交数据到后台jsp页面及页面跳转问题
2017/01/19 Javascript
微信小程序scroll-view实现横向滚动和上拉加载示例
2017/03/06 Javascript
IScroll那些事_当内容不足时下拉刷新的解决方法
2017/07/18 Javascript
js防刷新的倒计时代码 js倒计时代码
2017/09/06 Javascript
基于vue实现网站前台的权限管理(前后端分离实践)
2018/01/13 Javascript
实例详解vue.js浅度监听和深度监听及watch用法
2018/08/16 Javascript
Angular ui-roter 和AngularJS 通过 ocLazyLoad 实现动态(懒)加载模块和依赖
2018/11/25 Javascript
JS使用栈判断给定字符串是否是回文算法示例
2019/03/04 Javascript
详解微信小程序开发之formId使用(模板消息)
2019/08/27 Javascript
Javascript Dom元素获取和添加详解
2019/09/24 Javascript
jQuery实现简单飞机大战
2020/07/05 jQuery
windows下wxPython开发环境安装与配置方法
2014/06/28 Python
Python 3.x 新特性及10大变化
2015/06/12 Python
Python实现PS图像调整之对比度调整功能示例
2018/01/26 Python
python selenium自动上传有赞单号的操作方法
2018/07/05 Python
pygame游戏之旅 添加icon和bgm音效的方法
2018/11/21 Python
Python使用pandas和xlsxwriter读写xlsx文件的方法示例
2019/04/09 Python
pyinstaller打包单个exe后无法执行错误的解决方法
2019/06/21 Python
Python Tkinter模块 GUI 可视化实例
2019/11/20 Python
基于python实现判断字符串是否数字算法
2020/07/10 Python
CSS3 渐变(Gradients)之CSS3 线性渐变
2016/07/08 HTML / CSS
如何在.net Winform里面显示PDF文档
2012/09/11 面试题
综合办公室个人的自我评价
2013/12/22 职场文书
生物科学专业自荐书
2014/06/20 职场文书
社区端午节活动总结
2015/02/11 职场文书
大学生个人简历自我评价
2015/03/11 职场文书
Html5生成验证码的示例代码
2021/05/10 Javascript
Spring Boot 实现 WebSocket
2022/04/30 Java/Android