Python提取网页中超链接的方法


Posted in Python onSeptember 18, 2016

下面是最简单的实现方法,先将目标网页抓回来,然后通过正则匹配a标签中的href属性来获得超链接

代码如下:

import urllib2
import re
 
url = 'http://www.sunbloger.com/'
 
req = urllib2.Request(url)
con = urllib2.urlopen(req)
doc = con.read()
con.close()
 
links = re.findall(r'href\=\"(http\:\/\/[a-zA-Z0-9\.\/]+)\"', doc)
for a in links:
  print a

总结

以上就是这篇文章的全部内容,希望本文的内容对大家的学习或者工作能有所帮助,如果有疑问大家可以留言交流。

Python 相关文章推荐
Python 命令行非阻塞输入的小例子
Sep 27 Python
Python中的魔法方法深入理解
Jul 09 Python
Python中的XML库4Suite Server的介绍
Apr 14 Python
Python 3.x 判断 dict 是否包含某键值的实例讲解
Jul 06 Python
Python实现曲线拟合操作示例【基于numpy,scipy,matplotlib库】
Jul 12 Python
Pycharm无法使用已经安装Selenium的解决方法
Oct 13 Python
python使用 request 发送表单数据操作示例
Sep 25 Python
Python urlopen()和urlretrieve()用法解析
Jan 07 Python
Pytorch 实现focal_loss 多类别和二分类示例
Jan 14 Python
使用已经得到的keras模型识别自己手写的数字方式
Jun 29 Python
python 两种方法修改文件的创建时间、修改时间、访问时间
Sep 26 Python
Python pymysql模块安装并操作过程解析
Oct 13 Python
python解决Fedora解压zip时中文乱码的方法
Sep 18 #Python
Python自动化运维和部署项目工具Fabric使用实例
Sep 18 #Python
基于Python 的进程管理工具supervisor使用指南
Sep 18 #Python
打包发布Python模块的方法详解
Sep 18 #Python
在python的类中动态添加属性与生成对象
Sep 17 #Python
Python中字符串的处理技巧分享
Sep 17 #Python
Python中对象迭代与反迭代的技巧总结
Sep 17 #Python
You might like
PHP 批量删除 sql语句
2009/06/05 PHP
php通用防注入程序 推荐
2011/02/26 PHP
PHP 获取文件路径(灵活应用__FILE__)
2013/02/15 PHP
通过table标签,PHP输出EXCEL的实现方法
2013/07/24 PHP
php二维数组按某个键值排序的实例讲解
2019/02/15 PHP
Laravel框架下载,安装及路由操作图文详解
2019/12/04 PHP
PHP实现随机发扑克牌
2020/04/22 PHP
基于PHP的登录和注册的功能的实现
2020/08/06 PHP
js树形控件脚本代码
2008/07/24 Javascript
点击文章内容处弹出页面代码
2009/10/01 Javascript
JavaScript Event学习第二章 Event浏览器兼容性
2010/02/07 Javascript
Javascript实现简单二级下拉菜单实例
2014/06/15 Javascript
js对象基础实例分析
2015/01/13 Javascript
使用impress.js制作幻灯片
2015/09/09 Javascript
JS实现仿Windows7风格的网页右键菜单效果代码
2015/09/11 Javascript
jQuery实现可以编辑的表格实例详解【附demo源码下载】
2016/07/09 Javascript
第一次接触神奇的Bootstrap表单
2016/07/27 Javascript
javascript判断回文数详解及实现代码
2017/02/03 Javascript
Vue的MVVM实现方法
2017/08/16 Javascript
Element-UI中Upload上传文件前端缓存处理示例
2019/02/21 Javascript
Angular如何由模板生成DOM树的方法
2019/12/23 Javascript
原生js实现轮播图特效
2020/05/04 Javascript
[02:45]2016年中国刀塔全程回顾,完美“圣”典即将上演
2016/12/15 DOTA
Python 字符串操作实现代码(截取/替换/查找/分割)
2013/06/08 Python
python爬虫教程之爬取百度贴吧并下载的示例
2014/03/07 Python
Python使用回溯法子集树模板获取最长公共子序列(LCS)的方法
2017/09/08 Python
python读取图片并修改格式与大小的方法
2018/07/24 Python
wxpython多线程防假死与线程间传递消息实例详解
2019/12/13 Python
Pytorch mask_select 函数的用法详解
2020/02/18 Python
结构工程个人自荐信范文
2013/11/30 职场文书
经典的毕业生自荐信范文
2014/04/14 职场文书
考试保密承诺书
2014/08/30 职场文书
党章培训心得体会
2014/09/04 职场文书
瞿秋白纪念馆观后感
2015/06/10 职场文书
小学教师师德培训心得体会
2016/01/09 职场文书
「月刊Comic Alive」2022年5月号封面公开
2022/03/21 日漫