php 采集书并合成txt格式的实现代码


Posted in PHP onMarch 01, 2009

<?php
/**
* @name 采集书.php
* @date Sun Mar 01 22:48:02 CST 2009
* @copyright 马永占(MyZ)
* @author 马永占(MyZ)
* @link http://blog.csdn.net/mayongzhan/
*/
//header('Content-Type:text/html;charset=utf8');
header('Content-Type:text/html;charset=gb2312');
error_reporting(E_ALL);
date_default_timezone_set('Asia/Shanghai');
set_time_limit(0);
function writer($content,$url)
{
$fp = fopen($url, 'ab');
fwrite($fp, $content);
fclose($fp);
}
$folder = '2'; //文件夹
$book_base_url = 'xxxxxxxxxxxxxxxxxxxxx';
$book_url = 'yyyyyyyyyyyyy.html';
$main = file_get_contents($book_base_url.$book_url);
preg_match_all('/chapter_.*?\.html/', $main, $pages);
$pages = array_unique($pages[0]);
foreach ($pages as $value) {
writer(file_get_contents($book_base_url.$value), './'.$folder.'/'.$value.'.txt');
$str = file_get_contents('./'.$folder.'/'.$value.'.txt');
//print_r($str);
preg_match("/(<h1>)(.*?)(<\/h1>)(.*?)(<div id=\"contTxt\" class=\"contTxt1\">)(.*?)(<\/div>)/s",$str,$arr);
//print_r($arr);die();
$arr[6] = preg_replace("/(<span[^>]+>.*?<a[^>]+>)(.*?)(<\/a><\/span>)/s","$2",preg_replace("/<p>|<\/p>/","\r\n",$arr[6]));
$result = "\r\n------------------------------------------------\r\n------------------------------------------------\r\n------------------------------------------------\r\n----------------".$arr[2]."\r\n------------------------------------------------\r\n------------------------------------------------\r\n------------------------------------------------\r\n".$arr[6];
writer($result, './'.$folder.'/new.txt');
}
?>

PHP 相关文章推荐
PHP与SQL注入攻击[三]
Apr 17 PHP
php错误提示failed to open stream: HTTP request failed!的完美解决方法
Jun 06 PHP
PHP动态创建Web站点的方法
Aug 14 PHP
PHP中实现中文字符进制转换原理分析
Dec 06 PHP
PHP--用万网的接口实现域名查询功能
Dec 13 PHP
PHP autoload与spl_autoload自动加载机制的深入理解
Jun 05 PHP
Yii框架在页面输出执行sql语句以方便调试的实现方法
Dec 24 PHP
php批量修改表结构实例
May 24 PHP
PHP高精确度运算BC函数库实例详解
Aug 15 PHP
django中的ajax组件教程详解
Oct 18 PHP
PHP封装的mysqli数据库操作类示例
Feb 16 PHP
TP5框架实现上传多张图片的方法分析
Mar 29 PHP
PHP Ajax中文乱码问题解决方法
Feb 27 #PHP
php下几个常用的去空、分组、调试数组函数
Feb 22 #PHP
PHP 编程的 5个良好习惯
Feb 20 #PHP
PHP 截取字符串 分别适合GB2312和UTF8编码情况
Feb 12 #PHP
PHP 操作文件的一些FAQ总结
Feb 12 #PHP
php实现从ftp服务器上下载文件树到本地电脑的程序
Feb 10 #PHP
PHP6 mysql连接方式说明
Feb 09 #PHP
You might like
php中json_encode中文编码问题分析
2011/09/13 PHP
探究Laravel使用env函数读取环境变量为null的问题
2016/12/06 PHP
PHP基于pdo的数据库操作类【可支持mysql、sqlserver及oracle】
2018/05/21 PHP
Yii2框架操作数据库的方法分析【以mysql为例】
2019/05/27 PHP
javascript setAttribute, getAttribute 在不同浏览器上的不同表现
2010/08/05 Javascript
jquery中ajax学习笔记一
2011/10/16 Javascript
JS获取当前日期和时间的简单实例
2013/11/19 Javascript
Javascript中级语法快速入手
2016/07/30 Javascript
详解Angular2 之 结构型指令
2017/06/21 Javascript
微信小程序实现天气预报功能
2018/07/18 Javascript
layui数据表格实现重载数据表格功能(搜索功能)
2019/07/27 Javascript
jquery 时间戳转日期过程详解
2019/10/12 jQuery
vue实现虚拟列表功能的代码
2020/07/28 Javascript
[14:00]DOTA2国际邀请赛史上最长大战 赛后专访B神
2013/08/10 DOTA
在Python中处理字符串之ljust()方法的使用简介
2015/05/19 Python
python利用dir函数查看类中所有成员函数示例代码
2017/09/08 Python
使用python 爬虫抓站的一些技巧总结
2018/01/10 Python
Python3环境安装Scrapy爬虫框架过程及常见错误
2019/07/12 Python
Django之全局使用request.user.username的实例详解
2020/05/14 Python
如何在keras中添加自己的优化器(如adam等)
2020/06/19 Python
使用python库xlsxwriter库来输出各种xlsx文件的示例
2020/09/01 Python
纯CSS3实现的阴影效果
2014/12/24 HTML / CSS
html5 更新图片颜色示例代码
2014/07/29 HTML / CSS
南非最大的花卉和送礼服务:NetFlorist
2017/09/13 全球购物
CNC数控操作工岗位职责
2013/11/19 职场文书
白酒市场开发计划书
2014/01/09 职场文书
合作投资意向书
2014/04/01 职场文书
村庄环境整治方案
2014/05/15 职场文书
新学期开学演讲稿
2014/05/24 职场文书
应聘会计求职信
2014/06/11 职场文书
个人作风建设总结
2014/10/23 职场文书
初中英语教师个人工作总结
2015/02/09 职场文书
演讲比赛主持词
2015/06/29 职场文书
nginx网站服务如何配置防盗链(推荐)
2021/03/31 Servers
Python中的程序流程控制语句
2022/02/24 Python
Nginx限流和黑名单配置
2022/05/20 Servers