PHP实现的抓取小说网站内容功能示例


Posted in PHP onJune 27, 2019

本文实例讲述了PHP实现的抓取小说网站内容功能。分享给大家供大家参考,具体如下:

爬取免费内容,弄到手机,听书,妥妥的。

ini_set('user_agent','Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 2.0.50727; .NET CLR 3.0.04506.30; GreenBrowser)');
ini_set('max_execution_time', '0');
$base = 'https://www.qu.la/book/19434/';
$start = '7504808.html';
$content_grep = '/    (.*)<br\/>/';
//$content_grep = '/<div id="content">(.*)<br\/>/sS';
$next_grep = '/<a id="pager_next" href=\"(\d+\.html)\" target="_top" class="next">下一章<\/a>/';
$next = $start;
$file_name = '听书了.txt';
while($next) {
  echo 'getting ' . $next . PHP_EOL;
  $result = file_get_contents($base . $next);
  preg_match_all($content_grep, $result, $match);
  $isTitle = true;
  $content = "";
  foreach($match[1] as $line) {
    $line  = str_replace("<br/>", '', $line);
    $line  = str_replace(" ", '', $line);
    if($isTitle) {
      $content = $line . PHP_EOL . PHP_EOL;
      $isTitle = false;
    } else {
      $content .= '    ' . $line . PHP_EOL . PHP_EOL;
    }
  }
  $file = fopen($file_name, 'a');
  echo 'write length: ' . strlen($content) . PHP_EOL;
  fwrite($file, $content);
  fclose($file);
  echo '.';
  preg_match($next_grep, $result, $match);
  $next = $match[1];
}

希望本文所述对大家PHP程序设计有所帮助。

PHP 相关文章推荐
smarty的保留变量问题
Oct 23 PHP
编译php 5.2.14+fpm+memcached(具体操作详解)
Jun 18 PHP
PHP实现的多彩标签效果代码分享
Aug 21 PHP
PHP中mysqli_affected_rows作用行数返回值分析
Dec 26 PHP
php防止网站被攻击的应急代码
Oct 21 PHP
PHP框架Laravel插件Pagination实现自定义分页
Apr 22 PHP
PHP中用mysqli面向对象打开连接关闭mysql数据库的方法
Nov 05 PHP
php 遍历目录,生成目录下每个文件的md5值并写入到结果文件中
Dec 12 PHP
Laravel中任务调度console使用方法小结
May 07 PHP
PHPCrawl爬虫库实现抓取酷狗歌单的方法示例
Dec 21 PHP
Laravel框架实现抢红包功能示例
Oct 31 PHP
laravel框架语言包拓展实现方法分析
Nov 22 PHP
不常用但很实用的PHP预定义变量分析
Jun 25 #PHP
PHP中define() 与 const定义常量的区别详解
Jun 25 #PHP
php字符串截取函数mb_substr用法实例分析
Jun 25 #PHP
php过滤htmlspecialchars() 函数实现把预定义的字符转换为 HTML 实体用法分析
Jun 25 #PHP
Laravel向公共模板赋值方法总结
Jun 25 #PHP
php常用字符串长度函数strlen()与mb_strlen()用法实例分析
Jun 25 #PHP
PHP中遍历数组的三种常用方法实例分析
Jun 24 #PHP
You might like
社区(php&amp;&amp;mysql)二
2006/10/09 PHP
在php MYSQL中插入当前时间
2008/04/06 PHP
PHP 向右侧拉菜单实现代码,测试使用中
2009/11/03 PHP
php 验证码实例代码
2010/06/01 PHP
微信公众平台开发实现2048游戏的方法
2015/04/15 PHP
php简单实现查询数据库返回json数据
2015/04/16 PHP
yii用户注册表单验证实例
2015/12/26 PHP
PHP快速排序算法实现的原理及代码详解
2019/04/03 PHP
php实现的顺序线性表示例
2019/05/04 PHP
jQuery对表单的操作代码集合
2011/04/06 Javascript
javascript学习笔记(七) js函数介绍
2012/06/19 Javascript
js中hash和ico的关联分析
2015/02/05 Javascript
使用canvas实现仿新浪微博头像截取上传功能
2015/09/02 Javascript
javascript电商网站抢购倒计时效果实现
2015/11/19 Javascript
jquery日历插件datepicker用法分析
2016/01/22 Javascript
浅谈js中子页面父页面方法 变量相互调用
2016/08/04 Javascript
基于jQuery代码实现圆形菜单展开收缩效果
2017/02/13 Javascript
jQuery模拟爆炸倒计时功能实例代码
2017/08/21 jQuery
Auto.JS实现抖音刷宝等刷视频app,自动点赞,自动滑屏,自动切换视频功能
2020/05/08 Javascript
Vue打包部署到Nginx时,css样式不生效的解决方式
2020/08/03 Javascript
JavaScript实现移动小精灵的案例代码
2020/12/12 Javascript
[01:48]DOTA2 2015国际邀请赛中国区预选赛第二日战报
2015/05/27 DOTA
Python2.x利用commands模块执行Linux shell命令
2016/03/11 Python
python 系统调用的实例详解
2017/07/11 Python
python验证码识别教程之利用滴水算法分割图片
2018/06/05 Python
使用Html5中的cavas画一面国旗
2019/09/25 HTML / CSS
Giuseppe Zanotti美国官方网站:将鞋履视为高级时装般精心制作
2018/02/06 全球购物
Ray-Ban雷朋奥地利官网:全球领先的太阳眼镜品牌
2020/10/12 全球购物
会计学个人自荐信模板
2013/12/13 职场文书
自动化专业个人求职信范文
2013/12/30 职场文书
事业单位辞职信范文
2014/01/19 职场文书
医学院毕业生自荐信范文
2014/03/06 职场文书
防邪知识进家庭活动方案
2014/08/26 职场文书
教师党员先进性教育自我剖析材料思想汇报
2014/09/24 职场文书
居委会四风问题个人对照检查材料
2014/09/25 职场文书
个人政治思想总结
2015/03/05 职场文书