Python爬虫获取页面所有URL链接过程详解


Posted in Python onJune 04, 2020

如何获取一个页面内所有URL链接?在Python中可以使用urllib对网页进行爬取,然后利用Beautiful Soup对爬取的页面进行解析,提取出所有的URL。

什么是Beautiful Soup?

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。

BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,如果我们不安装它,则 Python 会使用 Python默认的解析器,lxml 解析器更加强大,速度更快。

全部代码:

from bs4 import BeautifulSoup
import time,re,urllib2
t=time.time()
websiteurls={}
def scanpage(url):
 websiteurl=url
 t=time.time()
 n=0
 html=urllib2.urlopen(websiteurl).read()
 soup=BeautifulSoup(html)
 pageurls=[]
 Upageurls={}
 pageurls=soup.find_all("a",href=True)
 for links in pageurls:
  if websiteurl in links.get("href") and links.get("href") not in Upageurls and links.get("href") not in websiteurls:
   Upageurls[links.get("href")]=0
 for links in Upageurls.keys():
  try:
   urllib2.urlopen(links).getcode()
  except:
   print "connect failed"
  else:
   t2=time.time()
   Upageurls[links]=urllib2.urlopen(links).getcode()
   print n,
   print links,
   print Upageurls[links]
   t1=time.time()
   print t1-t2
  n+=1
 print ("total is "+repr(n)+" links")
 print time.time()-t
scanpage(http://news.163.com/)

利用BeautifulSoup还可以有针对性的获取网页链接:Python爬虫获取网页上的链接,通过beautifulsoup的findall()方法对匹配的标签进行查找。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python 获取网页编码方式实现代码
Mar 11 Python
python爬虫 正则表达式使用技巧及爬取个人博客的实例讲解
Oct 20 Python
Python使用Turtle模块绘制五星红旗代码示例
Dec 11 Python
详解Python中where()函数的用法
Mar 27 Python
Python 3.x 安装opencv+opencv_contrib的操作方法
Apr 02 Python
python批量查询、汉字去重处理CSV文件
May 31 Python
python实现雨滴下落到地面效果
Jun 21 Python
Python中Proxypool库的安装与配置
Oct 19 Python
python实现雪花飘落效果实例讲解
Jun 18 Python
Python图像处理之图片文字识别功能(OCR)
Jul 30 Python
Python3标准库之dbm UNIX键-值数据库问题
Mar 24 Python
opencv用VS2013调试时用Image Watch插件查看图片
Jul 26 Python
Python中的全局变量如何理解
Jun 04 #Python
使用OpenCV获取图片连通域数量,并用不同颜色标记函
Jun 04 #Python
Python urllib2运行过程原理解析
Jun 04 #Python
Python如何生成xml文件
Jun 04 #Python
基于python代码批量处理图片resize
Jun 04 #Python
Python脚本如何在bilibili中查找弹幕发送者
Jun 04 #Python
Python爬虫谷歌Chrome F12抓包过程原理解析
Jun 04 #Python
You might like
php数组转成json格式的方法
2015/03/09 PHP
php使用标签替换的方式生成静态页面
2015/05/21 PHP
使用phpexcel类实现excel导入mysql数据库功能(实例代码)
2016/05/12 PHP
iis6手工创建网站后无法运行php脚本的解决方法
2017/06/08 PHP
PHP编程获取图片的主色调的方法【基于Imagick扩展】
2017/08/02 PHP
php如何利用pecl安装mongodb扩展详解
2019/01/09 PHP
laravel框架路由分组,中间件,命名空间,子域名,路由前缀实例分析
2020/02/18 PHP
js检测输入内容全为空格的方法
2014/05/03 Javascript
JavaScript基于setTimeout实现计数的方法
2015/05/08 Javascript
jQuery无刷新切换主题皮肤实例讲解
2015/10/21 Javascript
详解jQuery移动页面开发中的ui-grid网格布局使用
2015/12/03 Javascript
jQuery插件学习教程之SlidesJs轮播+Validation验证
2016/07/12 Javascript
jQuery Easyui使用(二)之可折叠面板动态加载无效果的解决方法
2016/08/17 Javascript
Vue内容分发slot(全面解析)
2017/08/19 Javascript
让mocha支持ES6模块的方法实现
2020/01/14 Javascript
微信小程序开发中var that =this的用法详解
2020/01/18 Javascript
使用python获取CPU和内存信息的思路与实现(linux系统)
2014/01/03 Python
python根据京东商品url获取产品价格
2015/08/09 Python
Python实现二叉搜索树
2016/02/03 Python
Python爬虫DNS解析缓存方法实例分析
2017/06/02 Python
Python语言实现将图片转化为html页面
2017/12/06 Python
python快速建立超简单的web服务器的实现方法
2018/02/17 Python
PyTorch读取Cifar数据集并显示图片的实例讲解
2018/07/27 Python
python进行文件对比的方法
2018/12/24 Python
python获取点击的坐标画图形的方法
2019/07/09 Python
python sqlite的Row对象操作示例
2019/09/11 Python
Pytorch框架实现mnist手写库识别(与tensorflow对比)
2020/07/20 Python
基于python实现MQTT发布订阅过程原理解析
2020/07/27 Python
python中lower函数实现方法及用法讲解
2020/12/23 Python
ONLY瑞典官网:世界知名服装品牌
2018/06/19 全球购物
傲盾软件面试题
2015/08/17 面试题
大学生毕业求职简历的自我评价
2013/10/24 职场文书
寒假实习自荐信
2014/01/26 职场文书
考核评语大全
2014/04/29 职场文书
团员自我评价范文
2015/03/10 职场文书
防震减灾主题班会
2015/08/14 职场文书