python提取页面内url列表的方法


Posted in Python onMay 25, 2015

本文实例讲述了python提取页面内url列表的方法。分享给大家供大家参考。具体实现方法如下:

from bs4 import BeautifulSoup
import time,re,urllib2
t=time.time()
websiteurls={}
def scanpage(url):
  websiteurl=url
  t=time.time()
  n=0
  html=urllib2.urlopen(websiteurl).read()
  soup=BeautifulSoup(html)
  pageurls=[]
  Upageurls={}
  pageurls=soup.find_all("a",href=True)
  for links in pageurls:
    if websiteurl in links.get("href") and links.get("href") not in Upageurls and links.get("href") not in websiteurls:
      Upageurls[links.get("href")]=0
  for links in Upageurls.keys():
    try:
      urllib2.urlopen(links).getcode()
    except:
      print "connect failed"
    else:
      t2=time.time()
      Upageurls[links]=urllib2.urlopen(links).getcode()
      print n,
      print links,
      print Upageurls[links]
      t1=time.time()
      print t1-t2
    n+=1
  print ("total is "+repr(n)+" links")
  print time.time()-t
scanpage("http://news.163.com/")

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
在Django的视图中使用数据库查询的方法
Jul 16 Python
Django数据库表反向生成实例解析
Feb 06 Python
python web.py开发httpserver解决跨域问题实例解析
Feb 12 Python
python 2.7.13 安装配置方法图文教程
Sep 18 Python
对pandas写入读取h5文件的方法详解
Dec 28 Python
PyTorch实现更新部分网络,其他不更新
Dec 31 Python
Python3列表List入门知识附实例
Feb 09 Python
Python 序列化和反序列化库 MarshMallow 的用法实例代码
Feb 25 Python
Django框架请求生命周期实现原理
Nov 13 Python
Python和Bash结合在一起的方法
Nov 13 Python
10个示例带你掌握python中的元组
Nov 23 Python
Python Django框架介绍之模板标签及模板的继承
May 27 Python
python实现批量改文件名称的方法
May 25 #Python
python基于右递归解决八皇后问题的方法
May 25 #Python
python基于urllib实现按照百度音乐分类下载mp3的方法
May 25 #Python
Python输出9*9乘法表的方法
May 25 #Python
Python批量重命名同一文件夹下文件的方法
May 25 #Python
Python实现豆瓣图片下载的方法
May 25 #Python
深入讲解Python中面向对象编程的相关知识
May 25 #Python
You might like
用PHP的ob_start();控制您的浏览器cache!
2006/11/25 PHP
php中判断一个字符串包含另一个字符串的方法
2007/03/19 PHP
php模拟登陆的实现方法分析
2015/01/09 PHP
非常重要的php正则表达式详解
2016/01/04 PHP
PHP实现生成数据字典功能示例
2018/05/24 PHP
Laravel框架实现超简单的分页效果示例
2019/02/08 PHP
在修改准备发的批量美化select+可修改select时,在非IE下发现了几个问题
2007/01/09 Javascript
非常漂亮的JS代码经典广告
2007/10/21 Javascript
jquery获取tr中控件值并操作tr实现思路
2013/03/27 Javascript
jquery 触发a链接点击事件解决方案
2013/05/02 Javascript
浅析return false的正确使用
2013/11/04 Javascript
js改变html的原有内容实现方法
2016/10/05 Javascript
BootStrap注意事项小结(五)表单
2017/03/10 Javascript
JS如何设置元素样式的方法示例
2017/08/28 Javascript
Node.JS 循环递归复制文件夹目录及其子文件夹下的所有文件
2017/09/18 Javascript
基于VUE实现的九宫格抽奖功能
2018/09/30 Javascript
JavaScript实现的弹出遮罩层特效经典示例【基于jQuery】
2019/07/10 jQuery
解决VUE双向绑定失效的问题
2019/10/29 Javascript
在 Vue 中编写 SVG 图标组件的方法
2020/02/24 Javascript
Vue+elementUI实现多图片上传与回显功能(含回显后继续上传或删除)
2020/03/23 Javascript
解决vue动态下拉菜单 有数据未反应的问题
2020/08/06 Javascript
浅谈vue获得后台数据无法显示到table上面的坑
2020/08/13 Javascript
[35:39]完美世界DOTA2联赛PWL S2 FTD.C vs Rebirth 第二场 11.22
2020/11/24 DOTA
Ubuntu下安装PyV8
2016/03/13 Python
详解Python中的format格式化函数的使用方法
2019/11/20 Python
Pytorch 神经网络—自定义数据集上实现教程
2020/01/07 Python
关于python 的legend图例,参数使用说明
2020/04/17 Python
使用OpenCV获取图片连通域数量,并用不同颜色标记函
2020/06/04 Python
浅谈cookie和localStorage那些事
2019/08/27 HTML / CSS
html5构建触屏网站之touch事件介绍
2013/01/07 HTML / CSS
HTML5各种头部meta标签的功能(推荐)
2017/03/13 HTML / CSS
美国礼品卡商城: Gift Card Mall
2017/08/25 全球购物
飞利浦法国官网:Philips法国
2019/07/10 全球购物
2013年研究生毕业感言
2014/02/06 职场文书
一份关于丢失公司财物的检讨书
2014/09/19 职场文书
兼职安全员岗位职责
2015/02/15 职场文书