php 采集书并合成txt格式的实现代码


Posted in PHP onMarch 01, 2009

<?php
/**
* @name 采集书.php
* @date Sun Mar 01 22:48:02 CST 2009
* @copyright 马永占(MyZ)
* @author 马永占(MyZ)
* @link http://blog.csdn.net/mayongzhan/
*/
//header('Content-Type:text/html;charset=utf8');
header('Content-Type:text/html;charset=gb2312');
error_reporting(E_ALL);
date_default_timezone_set('Asia/Shanghai');
set_time_limit(0);
function writer($content,$url)
{
$fp = fopen($url, 'ab');
fwrite($fp, $content);
fclose($fp);
}
$folder = '2'; //文件夹
$book_base_url = 'xxxxxxxxxxxxxxxxxxxxx';
$book_url = 'yyyyyyyyyyyyy.html';
$main = file_get_contents($book_base_url.$book_url);
preg_match_all('/chapter_.*?\.html/', $main, $pages);
$pages = array_unique($pages[0]);
foreach ($pages as $value) {
writer(file_get_contents($book_base_url.$value), './'.$folder.'/'.$value.'.txt');
$str = file_get_contents('./'.$folder.'/'.$value.'.txt');
//print_r($str);
preg_match("/(<h1>)(.*?)(<\/h1>)(.*?)(<div id=\"contTxt\" class=\"contTxt1\">)(.*?)(<\/div>)/s",$str,$arr);
//print_r($arr);die();
$arr[6] = preg_replace("/(<span[^>]+>.*?<a[^>]+>)(.*?)(<\/a><\/span>)/s","$2",preg_replace("/<p>|<\/p>/","\r\n",$arr[6]));
$result = "\r\n------------------------------------------------\r\n------------------------------------------------\r\n------------------------------------------------\r\n----------------".$arr[2]."\r\n------------------------------------------------\r\n------------------------------------------------\r\n------------------------------------------------\r\n".$arr[6];
writer($result, './'.$folder.'/new.txt');
}
?>

PHP 相关文章推荐
实用函数3
Nov 08 PHP
php 什么是PEAR?
Mar 19 PHP
重新封装zend_soap实现http连接安全认证的php代码
Jan 12 PHP
php中{}大括号是什么意思
Dec 01 PHP
PHP中使用GD库创建圆形饼图的例子
Nov 19 PHP
php计算两个文件相对路径的方法
Mar 14 PHP
php的crc32函数使用时需要注意的问题(不然就是坑)
Apr 21 PHP
Yii2如何批量添加数据
May 17 PHP
PHP自定义错误用法示例
Sep 28 PHP
PHP如何读取由JavaScript设置的Cookie
Mar 22 PHP
PHP实现时间比较和时间差计算的方法示例
Jul 24 PHP
解决Laravel blade模板转义html标签的问题
Sep 03 PHP
PHP Ajax中文乱码问题解决方法
Feb 27 #PHP
php下几个常用的去空、分组、调试数组函数
Feb 22 #PHP
PHP 编程的 5个良好习惯
Feb 20 #PHP
PHP 截取字符串 分别适合GB2312和UTF8编码情况
Feb 12 #PHP
PHP 操作文件的一些FAQ总结
Feb 12 #PHP
php实现从ftp服务器上下载文件树到本地电脑的程序
Feb 10 #PHP
PHP6 mysql连接方式说明
Feb 09 #PHP
You might like
php下几个常用的去空、分组、调试数组函数
2009/02/22 PHP
Google Voice 短信发送接口PHP开源版(2010.5更新)
2010/07/22 PHP
PHP中遍历stdclass object的实现代码
2011/06/09 PHP
与文件上传有关的php配置参数总结
2013/06/14 PHP
php文件上传的例子及参数详解
2013/12/12 PHP
php reset() 函数指针指向数组中的第一个元素并输出实例代码
2016/11/21 PHP
PHP filesize函数用法浅析
2019/02/15 PHP
关于laravel5.5的定时任务详解(demo)
2019/10/23 PHP
如何在PHP环境中使用ProtoBuf数据格式
2020/06/19 PHP
用示例说明filter()与find()的用法以及children()与find()的区别分析
2013/04/26 Javascript
jQuery表格插件ParamQuery简单使用方法示例
2013/12/05 Javascript
nodejs实现获取某宝商品分类
2015/05/28 NodeJs
使用Browserify配合jQuery进行编程的超级指南
2015/07/28 Javascript
js编写贪吃蛇的小游戏
2020/08/24 Javascript
jQuery实现微信长按识别二维码功能
2016/08/26 Javascript
js Canvas实现的日历时钟案例分享
2016/12/25 Javascript
原生JS实现左右箭头选择日期实例代码
2017/03/14 Javascript
vue axios登录请求拦截器
2018/04/02 Javascript
对vue事件的延迟执行实例讲解
2018/08/28 Javascript
webpack4打包vue前端多页面项目
2018/09/17 Javascript
vue+element+Java实现批量删除功能
2019/04/08 Javascript
Vue 实现可视化拖拽页面编辑器
2021/02/01 Vue.js
Python中的赋值、浅拷贝、深拷贝介绍
2015/03/09 Python
Python 3.x基于Xml数据的Http请求方法
2018/12/28 Python
opencv转换颜色空间更改图片背景
2019/08/20 Python
Pycharm使用远程linux服务器conda/python环境在本地运行的方法(图解))
2019/12/09 Python
Python中的X[:,0]、X[:,1]、X[:,:,0]、X[:,:,1]、X[:,m:n]和X[:,:,m:n]
2020/02/13 Python
HTML5中FileReader接口使用方法实例详解
2017/08/26 HTML / CSS
加拿大在线隐形眼镜和眼镜店:VisionPros
2019/10/06 全球购物
牵手50香港:专为黄金岁月的单身人士而设的交友网站
2020/08/14 全球购物
一些网络技术方面的面试题
2014/05/01 面试题
即将毕业大学生自荐信
2014/01/24 职场文书
党课培训主持词
2014/04/01 职场文书
焦裕禄观后感
2015/06/03 职场文书
2019生态环境保护倡议书!
2019/07/03 职场文书
世界各国短波电台对东亚播送时间频率表(SW)
2021/06/28 无线电