火车头采集器3.0采集图文教程


Posted in PHP onMarch 17, 2007
以采集示例详解部分功能
今天要给大家做示例的网站是163的 娱乐频道 这个应该是个比较通用和实用的规则,下面开始。
如果您是火车采集器的老手,那么您可以参考下,因为我要讲解的会有违传统的思维;如我您是新手那么您最好能仔细看下,因为这将加快您的入门,同时在以后给您节省很多时间。以下是一些采集的基本步骤,您可以灵活运用:
一、建立站点
1、请先打开火车采集器,新建站点,看下图:
火车头采集器3.0采集图文教程
为了方便管理您可以为您的站点取任何的您觉得易记的名称,但是我建议用目标源的名字作为站点的名称有利于日后的管理,如下图火车头采集器3.0采集图文教程
大部分的站点,通站往往只有一套模版或者有几套类似的模版,这边所谓的类似讲的是模版中的标记很接近,那什么是模版标记?模版标记指的是某部分内容开始和结束记号。比如很多正规的网站(通常是一些站点比较大,内容比较多的网站,比如sina、163等)会在内容开始的部分用类似于
等标志来表示内容的开始。他们这么作的原因有两个,一个是由于内容多,为了各个部门之间的配合而作了对应的标记以便于工程的交接,另一个原因就是内容控制的需要,随着xhtml的流行,用层控制越来越多,这就使得我们寻找采集标示越来越简单(这点你们以后会慢慢理解的)。上面给各位讲这些是因为接下来要我们要讲解的是整站内容规则。
2、标题标签讲解。对应的页面在这:http://ent.163.com/06/1029/11/2UJNHOS3000322EL.html
首先从“站点基本信息”切换到“整站内容规则”,然后把要采集的内容页面的网址拷贝到“典型页面”接着点击“测试”读取源码。先从标题标签开始,我们发现按默认标签采集回来的标题多了“_网易娱乐”,请双击标题标签或者选种标题标签在点击修改,把“_网易娱乐”添加到排除内容框里,标题标签完成。如图:
火车头采集器3.0采集图文教程
3、内容标签讲解。制作采集规则(任务)的任何一个标签最重要的就在于寻找开始也结束的标志。目前大部分的采集器要求开始和结束的标志必须是整个源代码的唯一标志,也就是所有的html源码里只能找到一个开始或结束的标志。但是火车采集器并不需要这么作,你要找的只需要是从上到下第一个标志就可以了,我的意思是说,html代码中允许有n个相同的开始(结束,下同)标志,但是只要这个位于我们要采集的内容的地方的标志是html从上到下的第一个就可以了。打开任何一个内容页面,这边以http://ent.163.com/06/1029/11/2UJNHOS3000322EL.html 为例,我们发现他的内容从“进入论坛”,因此双击代码测试框,查找需要的代码,如图:
火车头采集器3.0采集图文教程
我们可以用这个作为内容开始的标志,不过这样还不完美,请自己在打开几个内容页面,在网页中“右键点击”——“查看源码”,然后对比代码,并提取相同的部分,我以
作为内容开始的标志。火车头采集器3.0采集图文教程
接下来看内容结束标志,如下两图:
火车头采集器3.0采集图文教程 火车头采集器3.0采集图文教程
下面是根据我么设置规则采集回来的内容
火车头采集器3.0采集图文教程
一般来说我们从开始标志到结束标志所采集回来的内容中都会包含有必须排除的内容或广告,或链接。这边我们需要排除的内容是“相关专题>>> 第六届金鹰电视艺术节”。排除的方法是,找到相对应的代码把代码完整的拷贝进内容排除窗口,变动的部分用“(*)”替代。由于这个是整站规则,所以必须多找几个类别,比如现在的这个163娱乐还包括了“明星 | 图片 | 电影 | 电视 | 音乐 | 论坛 | 专题 | 名人访 ”等,在这边我只抽取“明星、图片、电影”作为列子跟大家讲解。找其他的类别只是希望把规则做的通用完美,如果你只要其中的一个分类,比如“图片”那么你直接做这个的规则即可。
http://ent.163.com/06/1018/15/2TNNT7EU00031H2L.html 这个页面刚好有分页,所以就顺便讲下上下页的设置。他这边的“上一页”和“下一页”是用图片做链接的,所以只要不图片的名字(右键点击对应的图片查看属性,拷贝图片名即可)拷贝进对应的代码框即可,详细的看图片:
火车头采集器3.0采集图文教程
这边提示下,任何内容的排除你只要找到对应的代码完整的拷贝进代码排除窗并把其中可变的部分替换成"(*)"即可。由于他这边没有广告,所有整站规则就算制作完毕,点击保存进入单任务制作。好了,整站规则就讲这两个标签,其他的根据需要自己按上面的步骤添加,记住,万变不离其宗。其他的问题请到火车采集器论坛:http://bbs.locoy.com 探讨。

二、下面讲解单任务规则制作:
1、内容规则的制作,很多人到现在可能都还不明白火车采集器好在哪,现在讲的这个绝对是火车独有的特色(至少到目前为止是这样,以后有没有人出相同的功能就不得而知了!)
火车采集器是不需要经过网址规则制作即可直接进入内容采集,这样你就可以根据站点的难易决定是否采集选定的目标源,而不必等到网址采集后才发现原来这个网站你没办法采或者根本不值得你浪费这个时间(前面的时间白搭了!)。
火车v3.0最大的功能之一既是可以继承站点的规则,只要你前面制作的规则通用,那么在接下来的所有任务都不需要再制作内容采集规则了。由于前面我们制作的内容采集规则通用,所以这边的规则我们就不用讲解了,直接继承站点的,如图:
火车头采集器3.0采集图文教程
2、网址采集规则制作
步骤:“新建”——“新建任务”,其他的操作如下图:
火车头采集器3.0采集图文教程
作规则需要善于去发现规律性的东西,作到这点采集就没什么问题了。我们要采集示例的地址在这http://ent.163.com/special/00031HI0/entnews.html
这板只采集其中的1-3页作为范例。我们发现每个叶面的网址开始前面都包含“过往娱乐热点”结束都是“第1 2……页”,所以请到html源代码里面拷贝对应的代码,到特定区域采集范围中,另外,网址中必须包含“/06/” 这样网址采集就搞定了(简单吧,自己试试看),如下图:
火车头采集器3.0采集图文教程
3、发布方式。发布方式有5种,这边以最常用的“在线发布”为例。
选定web在线发布到网站,点击“定义全局发布方式”,然后按系统提示的步骤:选定发布模块——》填写网站/cms根地址——》使用火车内置浏览器登陆——》登陆后关闭内置浏览器——》刷新列表——》测试模块,测试成功——》保存配置——》保存任务——》发表 如下图高亮的部分是你要操作的步骤,从左到右从上到下:
火车头采集器3.0采集图文教程
下面是刚才我采集到本地论坛采集测试的两个截屏:
火车头采集器3.0采集图文教程火车头采集器3.0采集图文教程

PHP 相关文章推荐
使用sockets:从新闻组中获取文章(一)
Oct 09 PHP
php下删除一篇文章生成的多个静态页面
Aug 08 PHP
ThinkPHP 防止表单重复提交的方法
Aug 08 PHP
linux环境apache多端口配置虚拟主机的方法深入介绍
Jun 09 PHP
使用php检测用户当前使用的浏览器是否为IE浏览器
Dec 03 PHP
ci检测是ajax还是页面post提交数据的方法
Nov 10 PHP
支持中文、字母、数字的PHP验证码
May 04 PHP
非常经典的PHP文件上传类分享
May 15 PHP
PHP入门教程之正则表达式基本用法实例详解(正则匹配,搜索,分割等)
Sep 11 PHP
Laravel创建数据库表结构的例子
Oct 09 PHP
laravel5.6框架操作数据curd写法(查询构建器)实例分析
Jan 26 PHP
php使用goto实现自动重启swoole、reactphp、workerman服务的代码
Apr 13 PHP
php环境配置 php5 MySQL5 apache2 phpmyadmin安装与配置图文教程
Mar 16 #PHP
Discuz 5.0 中读取纯真IP数据库函数分析
Mar 16 #PHP
初级的用php写的采集程序
Mar 16 #PHP
php下使用无限生命期Session的方法
Mar 16 #PHP
随时给自己贴的图片加文字的php水印
Mar 16 #PHP
php的一个登录的类 [推荐]
Mar 16 #PHP
对Session和Cookie的区分与解释
Mar 16 #PHP
You might like
php中文本操作的类
2007/03/17 PHP
Zend Framework中的简单工厂模式 图文
2012/07/10 PHP
php实现把数组按指定的个数分隔
2014/02/17 PHP
PHP中Socket连接及读写数据超时问题分析
2016/07/19 PHP
Prototype源码浅析 String部分(一)之有关indexOf优化
2012/01/15 Javascript
js防止表单重复提交实现代码
2012/09/05 Javascript
关于全局变量和局部变量的那些事
2013/01/11 Javascript
详细分析使用AngularJS编程中提交表单的方式
2015/06/19 Javascript
jQuery同步提交示例代码
2015/12/12 Javascript
JavaScript中关联原型链属性特性
2016/02/13 Javascript
Javascript的无new构建实例详解
2016/05/15 Javascript
Bootstrap和Java分页实例第二篇
2016/12/23 Javascript
BootStrapValidator初使用教程详解
2017/02/10 Javascript
Bootstrap风格的zTree右键菜单
2017/02/17 Javascript
angular2 ng build部署后base文件路径问题详细解答
2017/07/15 Javascript
微信小程序实现tab左右切换效果
2020/11/15 Javascript
详解单页面路由工程使用微信分享及二次分享解决方案
2019/02/22 Javascript
node.js中npm包管理工具用法分析
2020/02/14 Javascript
JavaScript十大取整方法实例教程
2020/12/03 Javascript
[02:04]2020年夜魇暗潮预告片
2020/10/30 DOTA
Python的Tornado框架的异步任务与AsyncHTTPClient
2016/06/27 Python
Python基于回溯法子集树模板实现8皇后问题
2017/09/01 Python
Python json模块dumps、loads操作示例
2018/09/06 Python
python判断计算机是否有网络连接的实例
2018/12/15 Python
Django Celery异步任务队列的实现
2019/07/24 Python
python3中的eval和exec的区别与联系
2019/10/10 Python
python 计算积分图和haar特征的实例代码
2019/11/20 Python
python subprocess pipe 实时输出日志的操作
2020/12/05 Python
Adobe Html5 Extension开发初体验图文教程
2017/11/14 HTML / CSS
日本一家专门经营各种箱包的大型网站:Traveler Store
2016/08/03 全球购物
Perfume’s Club澳大利亚官网:西班牙领先的在线美容店
2021/02/01 全球购物
《假如》教学反思
2014/04/17 职场文书
质量保证书
2015/01/17 职场文书
数学教师求职信范文
2015/03/20 职场文书
宇宙与人观后感
2015/06/05 职场文书
pytest配置文件pytest.ini的详细使用
2021/04/17 Python