Python爬虫获取页面所有URL链接过程详解


Posted in Python onJune 04, 2020

如何获取一个页面内所有URL链接?在Python中可以使用urllib对网页进行爬取,然后利用Beautiful Soup对爬取的页面进行解析,提取出所有的URL。

什么是Beautiful Soup?

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。

BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,如果我们不安装它,则 Python 会使用 Python默认的解析器,lxml 解析器更加强大,速度更快。

全部代码:

from bs4 import BeautifulSoup
import time,re,urllib2
t=time.time()
websiteurls={}
def scanpage(url):
 websiteurl=url
 t=time.time()
 n=0
 html=urllib2.urlopen(websiteurl).read()
 soup=BeautifulSoup(html)
 pageurls=[]
 Upageurls={}
 pageurls=soup.find_all("a",href=True)
 for links in pageurls:
  if websiteurl in links.get("href") and links.get("href") not in Upageurls and links.get("href") not in websiteurls:
   Upageurls[links.get("href")]=0
 for links in Upageurls.keys():
  try:
   urllib2.urlopen(links).getcode()
  except:
   print "connect failed"
  else:
   t2=time.time()
   Upageurls[links]=urllib2.urlopen(links).getcode()
   print n,
   print links,
   print Upageurls[links]
   t1=time.time()
   print t1-t2
  n+=1
 print ("total is "+repr(n)+" links")
 print time.time()-t
scanpage(http://news.163.com/)

利用BeautifulSoup还可以有针对性的获取网页链接:Python爬虫获取网页上的链接,通过beautifulsoup的findall()方法对匹配的标签进行查找。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python通过索引遍历列表的方法
May 04 Python
Python for Informatics 第11章之正则表达式(四)
Apr 21 Python
利用python生成一个导出数据库的bat脚本文件的方法
Dec 30 Python
Python生成密码库功能示例
May 23 Python
python文本数据相似度的度量
Mar 12 Python
python 去除二维数组/二维列表中的重复行方法
Jan 23 Python
使用Python实现毫秒级抢单功能
Jun 06 Python
使用python将最新的测试报告以附件的形式发到指定邮箱
Sep 20 Python
关于pandas的离散化,面元划分详解
Nov 22 Python
Python 实现Serial 与STM32J进行串口通讯
Dec 18 Python
python破解同事的压缩包密码
Oct 14 Python
 Python 中 logging 模块使用详情
Mar 03 Python
Python中的全局变量如何理解
Jun 04 #Python
使用OpenCV获取图片连通域数量,并用不同颜色标记函
Jun 04 #Python
Python urllib2运行过程原理解析
Jun 04 #Python
Python如何生成xml文件
Jun 04 #Python
基于python代码批量处理图片resize
Jun 04 #Python
Python脚本如何在bilibili中查找弹幕发送者
Jun 04 #Python
Python爬虫谷歌Chrome F12抓包过程原理解析
Jun 04 #Python
You might like
PHP对字符串的递增运算分析
2010/08/08 PHP
PHP代码网站如何防范SQL注入漏洞攻击建议分享
2012/03/01 PHP
探讨如何把session存入数据库
2013/06/07 PHP
PHP获取youku视频真实flv文件地址的方法
2014/12/23 PHP
PHP实现RSA签名生成订单功能【支付宝示例】
2017/06/06 PHP
Linux下 php7安装redis的方法
2018/11/01 PHP
ThinkPHP框架整合微信支付之Native 扫码支付模式一图文详解
2019/04/09 PHP
纯CSS3实现质感细腻丝滑按钮
2021/03/09 HTML / CSS
javascript学习(二)javascript常见问题总结
2013/01/02 Javascript
EXTjs4.0的store的findRecord的BUG演示代码
2013/06/08 Javascript
用javascript为页面添加天气显示实现思路及代码
2013/12/02 Javascript
jQuery中odd选择器的定义和用法
2014/12/23 Javascript
js实现异步循环实现代码
2016/02/16 Javascript
Nodejs 搭建简单的Web服务器详解及实例
2016/11/30 NodeJs
JS正则表达式验证中文字符
2017/05/08 Javascript
vue日历/日程提醒/html5本地缓存功能
2019/09/02 Javascript
Jquery让form表单异步提交代码实现
2019/11/14 jQuery
如何解决jQuery 和其他JS库的冲突
2020/06/22 jQuery
Vue如何循环提取对象数组中的值
2020/11/18 Vue.js
Python之Web框架Django项目搭建全过程
2017/05/02 Python
Python基础教程之浅拷贝和深拷贝实例详解
2017/07/15 Python
django 创建过滤器的实例详解
2017/08/14 Python
zookeeper python接口实例详解
2018/01/18 Python
浅析python实现scrapy定时执行爬虫
2018/03/04 Python
解决.ui文件生成的.py文件运行不出现界面的方法
2019/06/19 Python
Pandas中resample方法详解
2019/07/02 Python
Python编译成.so文件进行加密后调用的实现
2019/12/23 Python
python词云库wordCloud使用方法详解(解决中文乱码)
2020/02/17 Python
用Python生成HTML表格的方法示例
2020/03/06 Python
Python开发企业微信机器人每天定时发消息实例
2020/03/17 Python
关于HTML5的安全问题开发人员需要牢记的
2012/06/21 HTML / CSS
div或img图片高度随宽度自适应的方法
2020/02/06 HTML / CSS
某公司面试题
2012/03/05 面试题
施工质量承诺书范文
2014/05/30 职场文书
《合作意向书》怎么写?
2019/08/20 职场文书
Flink 侧流输出源码示例解析
2022/09/23 Servers