PHP怎样用正则抓取页面中的网址


Posted in PHP onAugust 09, 2016

前言

链接也就是超级链接,是从一个元素(文字、图片、视频等)链接到另一个元素(文字、图片、视频等)。网页中的链接一般有三种,一种是绝对URL超链接,也就是一个页面的完整路径;另一种是相对URL超链接,一般都链接到同一网站的其他页面;还有一种是页面内的超链接,这种一般链接到同一页面内的其他位置。

搞清楚了链接的种类,就知道要抓链接,主要还是绝对URL超链接和相对URL超链接。要写出正确的正则表达式,就必须要了解我们查找的对象的模式。

先说绝对链接,也叫作URL(Uniform Resource Locator),标识了互联网上的唯一资源。URL的结构包含三部分:协议、服务器名称、路径和文件名

协议是告诉浏览器如何处理将要打开文件的标识,最常见的就是 http 协议。本文也只考虑HTTP协议,至于其他的 https、ftp、mailto、telnet协议等,根据需要也可以添加。

服务器名称是告诉浏览器如何到达这个服务器的方式,通常是域名或者IP地址,有时还会包含端口号(默认为80)。FTP协议中,也可以包含用户名和密码,本文就不考虑了。

路径和文件名,一般以 / 分割,指出到达这个文件的路径和文件本身的名称。如果没有具体的文件名,则访问这个文件夹下的默认文件(可以在服务器端设置)。

那么现在清楚了,要抓取的绝对链接的典型形式可以概括为

http://www.xxx.com/xxx/yyy/zzz.html

每个部分可以使用的字符范围有明确的规范,具体可以参考RFC1738。那么正则表达式就可以写出来了。

/(http|https):\/\/([\w\d\-_]+[\.\w\d\-_]+)[:\d+]?([\/]?[\w\/\.]+)/i

解释如下:

(http|https)第一个括号内匹配的是协议部分。

([\w\d\-_]+[\.\w\d\-_]+)第二个括号内匹配的是域名部分。

([\/]?[\w\/\.]+)第三个括号内匹配的是相对路径。

写到这个时候,基本上大部分的网址都能匹配到了,但是对于URL中带有参数的还不能抓取,这样有可能造成再次访问的时候页面报错。关于参数RFC1738规范中要求是用?来分割,后面带上参数,但是现代的RIA应用有可能使用其他奇怪的形式进行分割。

稍微修改一下,这样就可以将查询参数部分搜索出来。这里仍然没有涵盖全部的情况,例如URL中有中文、有空格及其他特殊字符的情况,但是基本上能够满足我的需求了,就没有继续深化。

/(http|ftp|https):\/\/([\w\d\-_]+[\.\w\d\-_]+)[:\d+]?([\/]?[\w\/\.\?=&;%@#\+,]+)/i

使用括号的好处是,在处理结果时,可以很容易的获取到协议、域名、相对路径这些内容,方便后续的处理。

例如使用 preg_match_all() 匹配时,结果数组索引0为全部结果、1为协议、2为域名、3为相对路径

以上就是使用PHP的正则抓取页面中的网址的全部内容,希望对大家在PHP使用中有所帮助。

PHP 相关文章推荐
如何隐藏你的.php文件
Jan 04 PHP
解决dede生成静态页和动态页转换的一些问题,及火车采集入库生成动态的办法
Mar 29 PHP
Session保存到数据库的php类分享
Oct 24 PHP
深入理解PHP之数组(遍历顺序)  Laruence原创
Jun 13 PHP
PHP运行模式的深入理解
Jun 03 PHP
你可能不知道PHP get_meta_tags()函数
May 12 PHP
php几个预定义变量$_SERVER用法小结
Nov 07 PHP
PHP闭包函数详解
Feb 13 PHP
PHP文件与目录操作示例
Dec 24 PHP
php防止sql注入的方法详解
Feb 20 PHP
PHPstorm快捷键(分享)
Jul 17 PHP
ajax+php实现无刷新验证手机号的实例
Dec 22 PHP
php阳历转农历优化版
Aug 08 #PHP
php+jQuery+Ajax简单实现页面异步刷新
Aug 08 #PHP
常用PHP数组排序函数归纳
Aug 08 #PHP
PHP 5.6.11 访问SQL Server2008R2的几种情况详解
Aug 08 #PHP
PHP 5.6.11中CURL模块问题的解决方法
Aug 08 #PHP
Yii2增删改查之查询 where参数详细介绍
Aug 08 #PHP
微信公众号开发之文本消息自动回复php代码
Aug 08 #PHP
You might like
让你的PHP7更快之Hugepage用法分析
2016/05/31 PHP
示例详解Laravel的注册重构
2016/08/14 PHP
Jquery 实现table样式的设定
2015/01/28 Javascript
jQuery控制网页打印指定区域的方法
2015/04/07 Javascript
Js和JQuery获取鼠标指针坐标的实现代码分享
2015/05/25 Javascript
javascript页面倒计时实例
2015/07/25 Javascript
使用Script元素发送JSONP请求的方法
2016/06/12 Javascript
AngularJS利用Controller完成URL跳转
2016/08/09 Javascript
如何使用headjs来管理和异步加载js
2016/11/29 Javascript
nodejs和php实现图片访问实时处理
2017/01/05 NodeJs
老生常谈jquery id选择器和class选择器的区别
2017/02/12 Javascript
jQuery实现jQuery-form.js实现异步上传文件
2017/04/28 jQuery
详解使用angular的HttpClient搭配rxjs
2017/09/01 Javascript
JS实现的将html转为pdf功能【基于浏览器端插件jsPDF】
2018/02/06 Javascript
Vue.js点击切换按钮改变内容的实例讲解
2018/08/22 Javascript
nodejs+express最简易的连接数据库的方法
2020/12/23 NodeJs
深入理解python try异常处理机制
2016/06/01 Python
Python遍历文件夹和读写文件的实现代码
2016/08/28 Python
Python字典及字典基本操作方法详解
2018/01/30 Python
Scrapy框架爬取西刺代理网免费高匿代理的实现代码
2019/02/22 Python
python opencv捕获摄像头并显示内容的实现
2019/07/11 Python
如何爬取通过ajax加载数据的网站
2019/08/15 Python
python实现扫雷游戏
2020/03/03 Python
Python Selenium自动化获取页面信息的方法
2020/08/31 Python
python自动化办公操作PPT的实现
2021/02/05 Python
pandas map(),apply(),applymap()区别解析
2021/02/24 Python
澳大利亚家具和家居用品在线:BROSA
2017/11/02 全球购物
Feelunique德国官方网站:欧洲最大的在线美容零售商
2019/07/20 全球购物
OLEDBConnection和SQLConnection有什么区别
2013/05/31 面试题
思想政治教育专业个人求职信范文
2013/12/20 职场文书
计算机维护专业推荐信
2014/02/27 职场文书
2015年社区创卫工作总结
2015/04/21 职场文书
学生退学证明
2015/06/23 职场文书
聊一聊python常用的编程模块
2021/05/14 Python
如何理解及使用Python闭包
2021/06/01 Python
oracle索引总结
2021/09/25 Oracle