python提取页面内url列表的方法


Posted in Python onMay 25, 2015

本文实例讲述了python提取页面内url列表的方法。分享给大家供大家参考。具体实现方法如下:

from bs4 import BeautifulSoup
import time,re,urllib2
t=time.time()
websiteurls={}
def scanpage(url):
  websiteurl=url
  t=time.time()
  n=0
  html=urllib2.urlopen(websiteurl).read()
  soup=BeautifulSoup(html)
  pageurls=[]
  Upageurls={}
  pageurls=soup.find_all("a",href=True)
  for links in pageurls:
    if websiteurl in links.get("href") and links.get("href") not in Upageurls and links.get("href") not in websiteurls:
      Upageurls[links.get("href")]=0
  for links in Upageurls.keys():
    try:
      urllib2.urlopen(links).getcode()
    except:
      print "connect failed"
    else:
      t2=time.time()
      Upageurls[links]=urllib2.urlopen(links).getcode()
      print n,
      print links,
      print Upageurls[links]
      t1=time.time()
      print t1-t2
    n+=1
  print ("total is "+repr(n)+" links")
  print time.time()-t
scanpage("http://news.163.com/")

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
分析python服务器拒绝服务攻击代码
Jan 16 Python
Python三级目录展示的实现方法
Sep 28 Python
Python简单实现的代理服务器端口映射功能示例
Apr 08 Python
python遍历文件夹找出文件夹后缀为py的文件方法
Oct 21 Python
Windows 安装 Anaconda3+PyCharm的方法步骤
Jun 13 Python
python 定时器每天就执行一次的实现代码
Aug 14 Python
Python 用三行代码提取PDF表格数据
Oct 13 Python
tensorflow estimator 使用hook实现finetune方式
Jan 21 Python
用python读取xlsx文件
Dec 17 Python
Python基础之数据类型知识汇总
May 18 Python
python 对图片进行简单的处理
Jun 23 Python
python模板入门教程之flask Jinja
Apr 11 Python
python实现批量改文件名称的方法
May 25 #Python
python基于右递归解决八皇后问题的方法
May 25 #Python
python基于urllib实现按照百度音乐分类下载mp3的方法
May 25 #Python
Python输出9*9乘法表的方法
May 25 #Python
Python批量重命名同一文件夹下文件的方法
May 25 #Python
Python实现豆瓣图片下载的方法
May 25 #Python
深入讲解Python中面向对象编程的相关知识
May 25 #Python
You might like
无数据库的详细域名查询程序PHP版(3)
2006/10/09 PHP
mysql建立外键
2006/11/25 PHP
PHP 编写的 25个游戏脚本
2009/05/11 PHP
php字符串过滤与替换小结
2015/01/26 PHP
PHP实现会员账号单唯一登录的方法分析
2019/03/07 PHP
PHP中遍历数组的三种常用方法实例分析
2019/06/24 PHP
YII2框架中behavior行为的理解与使用方法示例
2020/03/13 PHP
jquery 实现二级/三级/多级联动菜单的思路及代码
2013/04/08 Javascript
node.js超时timeout详解
2014/11/26 Javascript
使用 TypeScript 重新编写的 JavaScript 坦克大战游戏代码
2015/04/07 Javascript
jquery Easyui快速开发总结
2015/08/20 Javascript
学习Javascript面向对象编程之封装
2016/02/23 Javascript
浅谈jquery中的each方法$.each、this.each、$.fn.each
2016/06/23 Javascript
Javascript继承机制详解
2017/05/30 Javascript
简单实现js拖拽效果
2017/07/25 Javascript
Node.js利用console输出日志文件的方法示例
2018/04/27 Javascript
JS实现图片转换成base64的各种应用场景实例分析
2018/06/22 Javascript
jQuery使用ajax传递json对象到服务端及contentType的用法示例
2020/03/12 jQuery
echarts实现获取datazoom的起始值(包括x轴和y轴)
2020/07/20 Javascript
JavaScript数组排序的六种常见算法总结
2020/08/18 Javascript
vscode中的vue项目报错Property ‘xxx‘ does not exist on type ‘CombinedVueInstance<{ readyOnly...Vetur(2339)
2020/09/11 Javascript
[01:10:27]DOTA2-DPC中国联赛正赛 SAG vs XG BO3 第二场 3月5日
2021/03/11 DOTA
Python获取脚本所在目录的正确方法
2014/04/15 Python
详解python string类型 bytes类型 bytearray类型
2017/12/16 Python
python 将list转成字符串,中间用符号分隔的方法
2018/10/23 Python
python实现DEM数据的阴影生成的方法
2019/07/23 Python
Python使用指定字符长度切分数据示例
2019/12/05 Python
python支持多继承吗
2020/06/19 Python
python如何导出微信公众号文章方法详解
2020/08/31 Python
CSS3制作半透明边框(Facebox)类似渐变
2012/12/09 HTML / CSS
利用三角函数在canvas上画虚线的方法
2018/01/11 HTML / CSS
澳大利亚婴儿喂养品牌:Cherub Baby
2018/11/01 全球购物
个人自我评价范文
2014/02/05 职场文书
党的群众路线教育实践活动学习计划
2014/11/03 职场文书
2014小学二年级班主任工作总结
2014/12/05 职场文书
入党个人总结范文
2015/03/02 职场文书