PHP 采集程序原理分析篇


Posted in PHP onMarch 05, 2010

苦想了几天,终于弄明白了里面的道理。在这里写出来,请高手指正。
采集程序的思路很简单,无非就是先打一个页面,一般都是列表页,取得里面全部链接的地址,然后打开逐条链接,寻找我们感兴趣的东西,如果找到,就把它入库或别的处理。下面以一个很简单的例子来说说。

首先确定一个采集页,一般就是列表面了。这里目标是:https://3water.com/article/11/index.htm。这是一个列表页,我们的目的就是采集这个列表页上全部的文章。

有列表页了,第一步先打开它,把它的内容纳入到我们的程序中来。一般用fopen或是file_get_contents这两个函数,我们这里用fopen作例子。怎么打开它呢?很简单:$source=fopen("https://3water.com/article/11/index.htm",'r');实际上已经把内容纳入到我们的程序中来了。注意得到的$source是一个资源,不是可处理的文本,所以再用函数fread将内容读到一个变量中,这次就是真正的可编辑的文本了。例子:
$content=fread($source,99999);后面的数字表示字节数,填个大的就行。你用file_put_contents将$content写入到一个文本文件,可以看出里面的内容其实就是网页的源码。得到了网页的源码,我们就要分析里面的文章链接地址,这里要用到正则表达式了,[推荐正则表达式教程(https://3water.com/article/7/all/545.1.htm)]。通过查看源代码,我们可以看到里面文章的链接地址全是这个样子<div class="in_arttitle"><a href="https://3water.com/article/10/all/273.1.htm">

将数据库连接代码封装在函数里,在需要读取时调用..</a>
我们就可以写正则表达式了。$count=preg_match_all("/<div class=\"in_arttitle\"><a\shref=\"(.+?)\">(.+?)<\/a>/",$content,$art_list);
其中数组$art_list[1][$s]里面包含的就是某个文章的链接地址。而$art_list[2][$s]包含的就是某一文章的标题。到了这一步就可以算成功了一半了。
接着用for循环依次打每个链接,然后像取得标题一样的方法取得内容即可。以上这些和我在网上找的教程都差不多,但是到了这个for循环网上的教程可就差劲,还没找到一篇可以说清这个事的文章,刚开始我是用js来帮助循环的,还是用实例说吧,刚开始我是这样做的:
for($i=0;$i<20;4i++ {
中间就是采集内容的部分了,省略了
采集了一页,肯定要采集再一页啊
可是再用fopen打开链接时就不行了。请求失败什么的,用js也不行,最后才知道要用这句echo "<META HTTP-EQUIV=REFRESH CONTENT='0;URL=aa.php?id=1'>";其中aa.php就是我们的程序的文件名, id后面的数字就可以帮助我们实现循环,采集多个页面。这就是能真正循环起来的关键
}
脑子有点难受,写得有点乱,将就着看吧,在高手看来这可能没什么大不了的,可是对于我等菜鸟来说,实在是很有帮助。

PHP 相关文章推荐
PHP 存取 MySQL 数据库的一个例子
Oct 09 PHP
火车头采集器3.0采集图文教程
Mar 17 PHP
PHP 递归效率分析
Nov 24 PHP
PHP strncasecmp字符串比较的小技巧
Jan 04 PHP
php中的boolean(布尔)类型详解
Oct 28 PHP
smarty模板引擎从php中获取数据的方法
Jan 22 PHP
php文件缓存方法总结
Mar 16 PHP
php中strlen和mb_strlen用法实例分析
Nov 12 PHP
Yii2.0中使用js异步删除示例
Mar 10 PHP
PHP有序表查找之二分查找(折半查找)算法示例
Feb 09 PHP
php-app开发接口加密详解
Apr 18 PHP
如何在Laravel之外使用illuminate组件详解
Sep 20 PHP
PHP 一个页面执行时间类代码
Mar 05 #PHP
一步一步学习PHP(8) php 数组
Mar 05 #PHP
一步一步学习PHP(7) php 字符串相关应用
Mar 05 #PHP
PHP 创建文件(文件夹)以及目录操作代码
Mar 04 #PHP
php &amp;&amp; 逻辑与运算符使用说明
Mar 04 #PHP
PHP MVC模式在网站架构中的实现分析
Mar 04 #PHP
通用PHP动态生成静态HTML网页的代码
Mar 04 #PHP
You might like
日本十大惊悚动漫
2020/03/04 日漫
PHP5中新增stdClass 内部保留类
2011/06/13 PHP
探讨php中遍历二维数组的几种方法详解
2013/06/08 PHP
PHP封装CURL扩展类实例
2015/07/28 PHP
详谈symfony window下的安装 安装时候出现的问题以及解决方法
2017/09/28 PHP
PHP7新增函数
2021/03/09 PHP
Ext第一周 史上最强学习笔记---GridPanel(基础篇)
2008/12/29 Javascript
JQuery在页面中添加和除移DOM示例代码
2013/06/24 Javascript
JS对img标签进行优化使用onerror显示默认图像
2014/04/24 Javascript
angularJS 中$attrs方法使用指南
2015/02/09 Javascript
详解Bootstrap glyphicons字体图标
2016/01/04 Javascript
Bootstrap编写一个兼容主流浏览器的受众门户式风格页面
2016/07/01 Javascript
JavaScript实现瀑布流以及加载效果
2017/02/11 Javascript
vue.js事件处理器是什么
2017/03/20 Javascript
angularJs的ng-class切换class
2017/06/23 Javascript
使用node.js对音视频文件加密的实例代码
2017/08/30 Javascript
用ES6的class模仿Vue写一个双向绑定的示例代码
2018/04/20 Javascript
vue实现购物车结算功能
2020/06/18 Javascript
Python中正则表达式的详细教程
2015/04/30 Python
python3实现公众号每日定时发送日报和图片
2018/02/24 Python
wxPython实现窗口用图片做背景
2018/04/25 Python
关于Pytorch的MNIST数据集的预处理详解
2020/01/10 Python
python给图像加上mask,并提取mask区域实例
2020/01/19 Python
如何解决pycharm调试报错的问题
2020/08/06 Python
numpy中生成随机数的几种常用函数(小结)
2020/08/18 Python
css3 中translate和transition的使用方法
2020/03/26 HTML / CSS
CSS3 真的会替代 SCSS 吗
2021/03/09 HTML / CSS
HTML5应用之文件上传
2016/12/30 HTML / CSS
法国二手MacBook销售网站:Okamac
2019/03/18 全球购物
Python面试题:如何用Python来发送邮件
2016/03/15 面试题
文科教师毕业的自我评价
2014/01/16 职场文书
励志演讲稿300字
2014/08/21 职场文书
青春励志演讲稿范文
2014/08/25 职场文书
国博复兴之路观后感
2015/06/02 职场文书
2016公司中秋节寄语
2015/12/07 职场文书
MySQL表的增删改查(基础)
2021/04/05 MySQL