同时提取多条新闻中的文本一例


Posted in PHP onOctober 09, 2006

本文为一个提取一批新闻网页中的文本的小程序,它可以将各篇新闻的内容存为以该新闻标题为文件名的文本文件。如有更好的处理方法,请和我联系:
lwx3069@sina.com
   这里以人民网中的“今日要闻”下的新闻为例.
<?php
($url) ? "" : $url = "http://www.unn.com.cn/GB/channel2/3/11/index.html";        // 今日要闻
if(isset($url)&&$url!="")        {
   $str = implode("",file($url));
   $str_ary = explode("<ul>",$str);
   $str_ary = explode("<li>",trim($str_ary[1]));
   for ($i=0; $i<8; $i++)        {
      if (strlen(trim($str_ary[$i]))<3){
      continue;
      }
      echo "新闻".$i.":".$str_ary[$i];
      $str1=strstr("$str_ary[$i]",'<a href="/');
      $str2=strstr("$str_ary[$i]",'" target');
      $len1=strlen("$str1");
      $len2=strlen("$str2");
      $len=$len1-$len2;
      $url=substr("$str1",10,$len-10);
      if (strlen(trim($url))!=0) {
         $url = "http://www.unn.com.cn/".$url;
         define(CONTENTS_DIR,"./contents/");
         if(isset($url)&&$url!="")        {
            $str = implode("",file($url));
            $str1=explode('<div align="right">',$str);            //去掉文件没用的上半部分
            $str2 = explode('<h4 align="center">  </h4>',$str1[1]);
            //取出文件的下半部分,并去掉没用的下半部分,这时得到的都是有用的
            $str3=explode('</font><font size="+2"><b><font size="3">',$str2[0]);   //从整个有用部分取出文件标题和正文
            $str4=explode('</div>',$str2[0]);   //取出日期和时间
            $str5=explode('</font></b></font><font size="2">',$str3[1]);     //从标题和正文部分取出标题
            $title=str_replace("<br>","",$str5[0]);
            $str3=explode('<p><font size="2">',$str2[0]);          //从整个有用部分取出文件正文
            $str3[1]=str_replace('<br><br>    ',"\n"."

",$str3[1]);
            $str3[1]=str_replace(' ',"",$str3[1]);
            $str3=strip_tags($str3[1]);
            $pf=trim($title).".txt";
            $ppf=fopen(CONTENTS_DIR."$pf",'w');
            fputs($ppf,$title);
            fputs($ppf,"$str4[0]");
            fputs($ppf,$str3);
        }
     }
  }
}
?> 

PHP 相关文章推荐
PHP 实例化类的一点摘记
Mar 23 PHP
洪恩在线成语词典小偷程序php版
Apr 20 PHP
Ajax+PHP快速上手及简单应用说明
Jul 24 PHP
PHP中4个加速、缓存扩展的区别和选用建议
Mar 12 PHP
Win7 64位系统下PHP连接Oracle数据库
Aug 20 PHP
C#静态方法与非静态方法实例分析
Sep 22 PHP
PHP与MYSQL中UTF8 中文排序示例代码
Oct 23 PHP
PHP导出Excel实例讲解
Jan 24 PHP
PHP生成和获取XML格式数据的方法
Mar 04 PHP
PHP中时间加减函数strtotime用法分析
Apr 26 PHP
PHP观察者模式示例【Laravel框架中有用到】
Jun 15 PHP
Laravel框架实现多个视图共享相同数据的方法详解
Jul 09 PHP
PHP+DBM的同学录程序(4)
Oct 09 #PHP
PHP+DBM的同学录程序(1)
Oct 09 #PHP
基于mysql的bbs设计(四)
Oct 09 #PHP
PHP+DBM的同学录程序(3)
Oct 09 #PHP
PHP+DBM的同学录程序(2)
Oct 09 #PHP
基于mysql的bbs设计(一)
Oct 09 #PHP
基于mysql的bbs设计(二)
Oct 09 #PHP
You might like
PHP程序员常见的40个陋习,你中了几个?
2014/11/20 PHP
Yii2增删改查之查询 where参数详细介绍
2016/08/08 PHP
详解php语言最牛掰的Laravel框架
2017/11/20 PHP
jQuery使用$.get()方法从服务器文件载入数据实例
2015/03/25 Javascript
JS动态添加iframe的代码
2015/09/14 Javascript
模仿password输入框的实现代码
2016/06/07 Javascript
jquery判断页面网址是否有效的两种方法
2016/12/11 Javascript
Vue2.0 多 Tab切换组件的封装实例
2017/07/28 Javascript
Vue中render函数的使用方法
2018/01/31 Javascript
纯JS实现出生日期[年月日]下拉菜单效果
2018/06/01 Javascript
使用localStorage替代cookie做本地存储
2019/09/25 Javascript
使用Python编写Linux系统守护进程实例
2015/02/03 Python
在Python的web框架中配置app的教程
2015/04/30 Python
一个基于flask的web应用诞生 用户注册功能开发(5)
2017/04/11 Python
python中利用队列asyncio.Queue进行通讯详解
2017/09/10 Python
Python语言实现将图片转化为html页面
2017/12/06 Python
Python基于列表模拟堆栈和队列功能示例
2018/01/05 Python
python实现音乐播放和下载小程序功能
2020/04/26 Python
python3爬虫中多线程的优势总结
2020/11/24 Python
python爬虫中url管理器去重操作实例
2020/11/30 Python
如何利用python 读取配置文件
2021/01/06 Python
Biblibili视频投稿接口分析并以Python实现自动投稿功能
2021/02/05 Python
使用CSS3配合IE滤镜实现渐变和投影的效果
2015/09/06 HTML / CSS
HTML5全屏(Fullscreen)API详细介绍
2015/04/24 HTML / CSS
使用phonegap进行提示操作的具体方法
2017/03/30 HTML / CSS
eDreams澳大利亚:预订机票、酒店和度假产品
2017/04/19 全球购物
世界上最好的足球商店:Unisport
2019/03/02 全球购物
酒店服务实习自我鉴定
2013/09/22 职场文书
师范毕业生求职自荐信
2013/09/25 职场文书
班长岗位职责
2013/11/10 职场文书
狼和鹿教学反思
2014/02/05 职场文书
优秀教导主任事迹材料
2014/05/09 职场文书
珠宝的促销活动方案
2014/08/31 职场文书
公安个人四风问题对照检查及整改措施
2014/10/28 职场文书
2015年助理工程师工作总结
2015/04/03 职场文书
Python实现视频自动打码的示例代码
2022/04/08 Python