python提取页面内url列表的方法


Posted in Python onMay 25, 2015

本文实例讲述了python提取页面内url列表的方法。分享给大家供大家参考。具体实现方法如下:

from bs4 import BeautifulSoup
import time,re,urllib2
t=time.time()
websiteurls={}
def scanpage(url):
  websiteurl=url
  t=time.time()
  n=0
  html=urllib2.urlopen(websiteurl).read()
  soup=BeautifulSoup(html)
  pageurls=[]
  Upageurls={}
  pageurls=soup.find_all("a",href=True)
  for links in pageurls:
    if websiteurl in links.get("href") and links.get("href") not in Upageurls and links.get("href") not in websiteurls:
      Upageurls[links.get("href")]=0
  for links in Upageurls.keys():
    try:
      urllib2.urlopen(links).getcode()
    except:
      print "connect failed"
    else:
      t2=time.time()
      Upageurls[links]=urllib2.urlopen(links).getcode()
      print n,
      print links,
      print Upageurls[links]
      t1=time.time()
      print t1-t2
    n+=1
  print ("total is "+repr(n)+" links")
  print time.time()-t
scanpage("http://news.163.com/")

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
python 多进程通信模块的简单实现
Feb 20 Python
python爬虫系列Selenium定向爬取虎扑篮球图片详解
Nov 15 Python
Python实现查询某个目录下修改时间最新的文件示例
Aug 29 Python
详解Numpy中的数组拼接、合并操作(concatenate, append, stack, hstack, vstack, r_, c_等)
May 27 Python
Python使用百度api做人脸对比的方法
Aug 28 Python
python opencv根据颜色进行目标检测的方法示例
Jan 15 Python
Python list运算操作代码实例解析
Jan 20 Python
pytorch 模型的train模式与eval模式实例
Feb 20 Python
Java ExcutorService优雅关闭方式解析
May 30 Python
Python中如何添加自定义模块
Jun 09 Python
python如何快速生成时间戳
Jul 21 Python
如何用python实现一个HTTP连接池
Jan 14 Python
python实现批量改文件名称的方法
May 25 #Python
python基于右递归解决八皇后问题的方法
May 25 #Python
python基于urllib实现按照百度音乐分类下载mp3的方法
May 25 #Python
Python输出9*9乘法表的方法
May 25 #Python
Python批量重命名同一文件夹下文件的方法
May 25 #Python
Python实现豆瓣图片下载的方法
May 25 #Python
深入讲解Python中面向对象编程的相关知识
May 25 #Python
You might like
smarty模板嵌套之include与fetch性能测试
2010/12/05 PHP
php变量范围介绍
2012/10/15 PHP
神盾加密解密教程(三)PHP 神盾解密工具
2014/06/08 PHP
使用PHP编写发红包程序
2015/07/22 PHP
Laravel模型事件的实现原理详解
2018/03/14 PHP
js弹窗代码 可以指定弹出间隔
2010/07/03 Javascript
用JS提交参数创建form表单在FireFox中遇到的问题
2013/01/16 Javascript
Array 重排序方法和操作方法的简单实例
2014/01/24 Javascript
jquery解析xml字符串示例分享
2014/03/25 Javascript
使用ajaxfileupload.js实现ajax上传文件php版
2014/06/26 Javascript
jQuery each函数源码分析
2016/05/25 Javascript
微信小程序图片横向左右滑动案例
2017/05/19 Javascript
jQuery实现表单动态添加与删除数据操作示例
2018/07/03 jQuery
新手如何快速理解js异步编程
2019/06/24 Javascript
利用d3.js制作连线动画图与编辑器的方法实例
2019/09/05 Javascript
微信小程序实现轨迹回放的示例代码
2019/12/13 Javascript
d3.js实现图形缩放平移
2019/12/19 Javascript
React中使用UMEditor的方法示例
2019/12/27 Javascript
json_decode 索引为数字时自动排序问题解决方法
2020/03/28 Javascript
[01:32]TI奖金增速竟因它再创新高!DOTA2勇士令状不朽珍藏Ⅰ饰品欣赏
2018/05/18 DOTA
详解python中的 is 操作符
2017/12/26 Python
Python实现自定义顺序、排列写入数据到Excel的方法
2018/04/23 Python
Python读取stdin方法实例
2019/05/24 Python
Python切图九宫格的实现方法
2019/10/10 Python
浅谈python多线程和多线程变量共享问题介绍
2020/04/17 Python
python爬虫中抓取指数的实例讲解
2020/12/01 Python
HTML5 Web缓存和运用程序缓存(cookie,session)
2018/01/11 HTML / CSS
Lookfantastic日本官网:英国知名护肤、化妆品和头发护理购物网站
2018/04/21 全球购物
澳大利亚女性快速时尚零售商:Ally Fashion
2018/04/25 全球购物
关于环保的活动方案
2014/08/25 职场文书
2015年施工员工作总结范文
2015/04/20 职场文书
全国法制宣传日活动总结
2015/05/05 职场文书
植树节新闻稿
2015/07/17 职场文书
总经理致辞
2015/07/29 职场文书
python获取淘宝服务器时间的代码示例
2021/04/22 Python
SQL Server Agent 服务无法启动
2022/04/20 SQL Server