同时提取多条新闻中的文本一例


Posted in PHP onOctober 09, 2006

本文为一个提取一批新闻网页中的文本的小程序,它可以将各篇新闻的内容存为以该新闻标题为文件名的文本文件。如有更好的处理方法,请和我联系:
lwx3069@sina.com
   这里以人民网中的“今日要闻”下的新闻为例.
<?php
($url) ? "" : $url = "http://www.unn.com.cn/GB/channel2/3/11/index.html";        // 今日要闻
if(isset($url)&&$url!="")        {
   $str = implode("",file($url));
   $str_ary = explode("<ul>",$str);
   $str_ary = explode("<li>",trim($str_ary[1]));
   for ($i=0; $i<8; $i++)        {
      if (strlen(trim($str_ary[$i]))<3){
      continue;
      }
      echo "新闻".$i.":".$str_ary[$i];
      $str1=strstr("$str_ary[$i]",'<a href="/');
      $str2=strstr("$str_ary[$i]",'" target');
      $len1=strlen("$str1");
      $len2=strlen("$str2");
      $len=$len1-$len2;
      $url=substr("$str1",10,$len-10);
      if (strlen(trim($url))!=0) {
         $url = "http://www.unn.com.cn/".$url;
         define(CONTENTS_DIR,"./contents/");
         if(isset($url)&&$url!="")        {
            $str = implode("",file($url));
            $str1=explode('<div align="right">',$str);            //去掉文件没用的上半部分
            $str2 = explode('<h4 align="center">  </h4>',$str1[1]);
            //取出文件的下半部分,并去掉没用的下半部分,这时得到的都是有用的
            $str3=explode('</font><font size="+2"><b><font size="3">',$str2[0]);   //从整个有用部分取出文件标题和正文
            $str4=explode('</div>',$str2[0]);   //取出日期和时间
            $str5=explode('</font></b></font><font size="2">',$str3[1]);     //从标题和正文部分取出标题
            $title=str_replace("<br>","",$str5[0]);
            $str3=explode('<p><font size="2">',$str2[0]);          //从整个有用部分取出文件正文
            $str3[1]=str_replace('<br><br>    ',"\n"."

",$str3[1]);
            $str3[1]=str_replace(' ',"",$str3[1]);
            $str3=strip_tags($str3[1]);
            $pf=trim($title).".txt";
            $ppf=fopen(CONTENTS_DIR."$pf",'w');
            fputs($ppf,$title);
            fputs($ppf,"$str4[0]");
            fputs($ppf,$str3);
        }
     }
  }
}
?> 

PHP 相关文章推荐
php下获取客户端ip地址的函数
Mar 15 PHP
ajax实现无刷新分页(php)
Jul 18 PHP
用php解析html的实现代码
Aug 08 PHP
php 文件缓存函数
Oct 08 PHP
PHP __autoload()方法真的影响性能吗?
Mar 30 PHP
使用php实现截取指定长度
Aug 06 PHP
Zend Framework教程之Zend_Layout布局助手详解
Mar 04 PHP
使用Composer安装Yii框架的方法
Mar 15 PHP
php-beanstalkd消息队列类实例分享
Jul 19 PHP
PHP使用文件锁解决高并发问题示例
Mar 29 PHP
详解关于php的xdebug配置(编辑器vscode)
Jan 29 PHP
windows系统php环境安装swoole具体步骤
Mar 04 PHP
PHP+DBM的同学录程序(4)
Oct 09 #PHP
PHP+DBM的同学录程序(1)
Oct 09 #PHP
基于mysql的bbs设计(四)
Oct 09 #PHP
PHP+DBM的同学录程序(3)
Oct 09 #PHP
PHP+DBM的同学录程序(2)
Oct 09 #PHP
基于mysql的bbs设计(一)
Oct 09 #PHP
基于mysql的bbs设计(二)
Oct 09 #PHP
You might like
PHP实现的比较完善的购物车类
2014/12/02 PHP
PHP使用ActiveMQ实例
2018/02/05 PHP
JQuery textlimit 显示用户输入的字符数 限制用户输入的字符数
2009/05/14 Javascript
五个jQuery图片画廊插件 推荐
2011/05/12 Javascript
js防止表单重复提交的两种方法
2013/09/30 Javascript
javascript判断是手机还是电脑访问网页的简单实例分享
2014/06/03 Javascript
jQuery实现带动画效果的多级下拉菜单代码
2015/09/08 Javascript
AngularJS入门教程之AngularJS指令
2016/04/18 Javascript
NodeJS连接MongoDB数据库时报错的快速解决方法
2016/05/13 NodeJs
详解Vue中使用v-for语句抛出错误的解决方案
2017/05/04 Javascript
详解Vue CLI3配置之filenameHashing使用和源码设计使用和源码设计
2018/08/31 Javascript
微信小程序简单的canvas裁剪图片功能详解
2019/07/12 Javascript
使用JavaScript获取Django模板指定键值数据
2020/05/27 Javascript
[01:20]2018DOTA2亚洲邀请赛总决赛战队LGD晋级之路
2018/04/07 DOTA
python调用OpenCV实现人脸识别功能
2018/05/25 Python
处理python中多线程与多进程中的数据共享问题
2019/07/28 Python
关于Python3 lambda函数的深入浅出
2019/11/27 Python
pycharm 2019 最新激活方式(pycharm破解、激活)
2020/09/22 Python
Django视图、传参和forms验证操作
2020/07/15 Python
海淘母婴商城:国际妈咪
2016/07/23 全球购物
您的网上新华书店:文轩网
2016/08/24 全球购物
Ariat英国官网:为世界顶级马术运动员制造最优质的鞋类和服装
2020/02/14 全球购物
JSF面试题:Jsf中的核心类用那些?有什么作用?LiftCycle六大生命周期是什么?
2014/07/17 面试题
new修饰符是起什么作用
2015/06/28 面试题
Java如何读取CLOB字段
2013/10/10 面试题
医学生自荐信
2013/12/03 职场文书
网络研修随笔感言
2014/02/17 职场文书
会计专业个人自我鉴定
2014/03/21 职场文书
员工廉洁自律承诺书
2014/05/26 职场文书
2014年作风建设工作总结
2014/10/29 职场文书
2016中秋节问候语
2015/11/11 职场文书
2019个人工作自我评价范文(3篇)
2019/09/19 职场文书
读《儒林外史》有感:少一些功利,多一些真诚
2020/01/19 职场文书
Nginx域名转发https访问的实现
2021/03/31 Servers
用Python创建简易网站图文教程
2021/06/11 Python
PostgreSQL自动更新时间戳实例代码
2021/11/27 PostgreSQL