php 信息采集程序代码


Posted in PHP onMarch 17, 2009
<? 
//采集首页地址 
$url="http://emotion.pclady.com.cn/skills/"; 
//获取页面代码 
$rs=file_get_contents($url); 
//设置匹配正则 
//$fp=fopen("text.txt","a"); 
//$fw=fwrite($fp,$rs); 
//fclose($fp); 
/*<I class=titles><A 
href="http://emotion.pclady.com.cn/skills/0903/376476.html" 
target=_blank>留住你身边的好男人</A></I>*/ 
$preg='/<i\s+class=\"titles\"><a\s+href=\"[^>]+\">(.*)<\/a><\/i>/i'; 
//进行正则搜索 
preg_match_all($preg,$rs,$title); 
//计算标题数量 
$count=count($title[0]); 
echo $count."<br>"; 
//通过标题数量进行内容采集 
for ($i=0;$i<$count;$i++){ //设置内容页地址 
$pr='/<a\s+href=\"[^>]+\">/isU'; 
preg_match_all($pr,$title[0][$i],$jurl); 
$substr=substr($jurl[0][0],9); 
$curl=substr($substr,0,-18); 
//获取内容页代码 
$c=file_get_contents($curl); 
//设置内容页匹配正则 
$pc='/<a\s+href=\"[^>]+\">/i'; 
//进行正则匹配搜索 
preg_match($pc,$c,$content); 
//输出标题 
echo $title[0][$i]."<br>"; 
echo $title[1][$i]."<br>"; 
$concount=count($content[0]); 
echo $concount."<br>"; 
echo $content[0][0]; 
for ($j=0;$j<$concount;$j++){ 
} 
} 
?>

通过检测,$c已经是内容页的数据流了,可是$pc这个的正则表达式为什么只匹配<这个字符其他的都没有呢,是因为我上面用了subsrt()函数吗?还是什么问题?麻烦各位大侠指点迷津啊?
PHP 相关文章推荐
php目录管理函数小结
Sep 10 PHP
一个很不错的PHP翻页类
Jun 01 PHP
PHP 获取MSN好友列表的代码(2009-05-14测试通过)
Sep 09 PHP
PHP不用递归实现无限分级的例子分享
Apr 18 PHP
php数组索引与键值操作技巧实例分析
Jun 24 PHP
php实现word转html的方法
Jan 22 PHP
简介PHP的Yii框架中缓存的一些高级用法
Mar 29 PHP
PHP抓取及分析网页的方法详解
Apr 26 PHP
php 实现301重定向跳转实例代码
Jul 18 PHP
实例分析PHP中PHPMailer发邮件
Dec 13 PHP
深入学习微信网址链接解封的防封原理visit_type
Aug 15 PHP
宝塔面板出现“open_basedir restriction in effect. ”的解决方法
Mar 14 PHP
php cookie 登录验证示例代码
Mar 16 #PHP
php 删除cookie和浏览器重定向
Mar 16 #PHP
php cookis创建实现代码
Mar 16 #PHP
php session应用实例 登录验证
Mar 16 #PHP
php session处理的定制
Mar 16 #PHP
php session 检测和注销
Mar 16 #PHP
php session 预定义数组
Mar 16 #PHP
You might like
PHP中for循环语句的几种变型
2006/11/26 PHP
PHP session_start()问题解疑(详细介绍)
2013/07/05 PHP
ThinkPHP添加更新标签的方法
2014/12/05 PHP
php实现屏蔽掉黑帽SEO的搜索关键字
2015/04/15 PHP
PHP getNamespaces()函数讲解
2019/02/03 PHP
laravel 验证错误信息到 blade模板的方法
2019/09/29 PHP
使用laravel和ajax实现整个页面无刷新的操作方法
2019/10/03 PHP
Javascript 继承实现例子
2009/08/12 Javascript
url 编码 js url传参中文乱码解决方案
2010/04/11 Javascript
IE6图片加载的一个BUG解决方法
2010/07/13 Javascript
JavaScript:Div层拖动效果实例代码
2013/08/06 Javascript
JavaScript中Cookie操作实例
2015/01/09 Javascript
Javascript原型链的原理详解
2016/01/05 Javascript
angular学习之ngRoute路由机制
2017/04/12 Javascript
JavaScript中 DOM操作方法小结
2017/04/25 Javascript
angular 用拦截器统一处理http请求和响应的方法
2017/06/08 Javascript
详解webpack 多入口配置
2017/06/16 Javascript
vue基础之模板和过滤器用法实例分析
2019/03/12 Javascript
Nuxt.js实战和配置详解
2019/08/05 Javascript
javascript移动端 电子书 翻页效果实现代码
2019/09/07 Javascript
[03:10]2014DOTA2 TI马来劲旅Titan首战告捷目标只是8强
2014/07/10 DOTA
Django网络框架之HelloDjango项目创建教程
2019/06/06 Python
python3:excel操作之读取数据并返回字典 + 写入的案例
2020/09/01 Python
深入浅出CSS3 background-clip,background-origin和border-image教程
2011/01/27 HTML / CSS
美国批发零售网站:GearXS
2016/07/26 全球购物
Charlotte Tilbury美国官网:英国美妆品牌
2017/10/13 全球购物
尤妮佳moony海外旗舰店:日本殿堂级纸尿裤品牌
2018/02/23 全球购物
香港莎莎官网Sasa.com:亚洲著名国际化妆品商城
2019/11/10 全球购物
Carmen Sol官网:购买果冻鞋、手袋和配件
2021/01/01 全球购物
c语言常见笔试题总结
2016/09/05 面试题
电子银行业务授权委托书
2014/10/10 职场文书
2015年幼儿园新年寄语
2014/12/08 职场文书
应届毕业生求职信范文
2015/03/19 职场文书
2016年小学教师政治学习心得体会
2016/01/23 职场文书
详解Flutter自定义应用程序内键盘的实现方法
2022/06/14 Java/Android
TS 类型兼容教程示例详解
2022/09/23 Javascript