TP5框架使用QueryList采集框架爬小说操作示例


Posted in PHP onMarch 26, 2020

本文实例讲述了TP5框架使用QueryList采集框架爬小说操作。分享给大家供大家参考,具体如下:

最近想写一个小说网站,就去搜资料,搜出来TP5可以使用QueryList采集框架去爬小说,这里我来给大家详解如何用QueryList去爬小说。
#首先应该下载TP5框架,然后在extend里面建立一个文件夹命名为QL,再去官网下载QueryList,然后把phpQuery.php 和 QueryList.php 两个文件放在QL文件夹下,如图:
TP5框架使用QueryList采集框架爬小说操作示例
##在QueryList.php里面加上命名空间:

namespace QL;
require ‘phpQuery.php';

use phpQuery,Exception,ReflectionClass;
use Monolog\Logger;
use Monolog\Handler\StreamHandler;
use Iterator,Countable,ArrayAccess;//使用phpQuuery接口

#准备工作做好了下来开始采集小说(我们这里以https://www.17k.com/这个网站的免费小说为例)

##先找到你要采集的小说的目录页面的url作为采集url

##再在url前面加上 view-source: 查看他的源码,找到包含所有章节url的class属性,写好采集规则,执行语句进行采集

##采集他的章节名和每一章节的url,因为url采集下来没有域名,需要用正则表达式加上https://www.17k.com 然后采用for循环去一个一个采集每一章节的内容

##最后再将采集到的章节名与章节内容存入数据库

直接上代码:

<?php
namespace app\index\Controller;
use think\Controller;
use QL\QueryList;
 
class Xiaoshuo extends Controller
{
  public function index()
  {
    //采集目标
    //$url = 'https://www.17k.com/list/3032846.html?offset=';
     $url = 'https://www.17k.com/list/3041226.html?offset=';
    //采集规则
    $rules = array(
          'title'=>array('.ellipsis','text'),//获取书每个章节名
          'link'=>array('.Volume a','href','-.folding -copy -a'),//获取每个章节链接
        );
    //开始采集
    $data = QueryList::Query($url,$rules)->data;
    //var_dump($data);
    //求数组长度
     $j = count($data);
    if($data)
    {
      for($i=0;$i<=$j-1;$i++)
      {
       $values = ['title'=>$data[$i]['title'],'link'=>$data[$i+1]['link']];
       $_POST['url']=$data[$i+1]['link'];
       if (!preg_match("/^(http|ftp):/", $_POST['url']))//给链接加上域名头
        {
         $url1 = 'https://www.17k.com'.$_POST['url'];
        }
       $rules1 = array(
          'novel'=>array('.p','text','-li -a'),
          );
       $data1 = QueryList::Query($url1,$rules1)->data;
       //var_dump($data1);
       $values1 = ['title'=>$data[$i]['title'],'novel'=>$data1[0]['novel']];//将章节名、内容插入数据库
       $data2 = \think\Db::name('novel6')->insert($values1); 
      }
    }
    
  }
}

我们来打印一下他的章节名和章节内容:
TP5框架使用QueryList采集框架爬小说操作示例TP5框架使用QueryList采集框架爬小说操作示例注:1.class属性一定要找对
2.采集下来 $data 的第一个数组的link不是第一章的url,下一个才是第一章的,所以 data[ data[" role="presentation" style="position: relative;">data[i+1][‘link'] 是他第i章的url

希望本文所述对大家基于ThinkPHP框架的PHP程序设计有所帮助。

PHP 相关文章推荐
PHP学习笔记之数组篇
Jun 28 PHP
怎么在Windows系统中搭建php环境
Aug 31 PHP
C#使用PHP服务端的Web Service通信实例
Apr 08 PHP
PHP函数strip_tags的一个bug浅析
May 22 PHP
CI框架验证码CAPTCHA辅助函数用法实例
Nov 05 PHP
PHP静态文件生成类实例
Nov 29 PHP
smarty模板引擎中变量及变量修饰器用法实例
Jan 22 PHP
PHP实现的带超时功能get_headers函数
Feb 10 PHP
PHP中把对象数组转换成普通数组的方法
Jul 10 PHP
在CentOS上搭建LAMP+vsftpd环境的简单指南
Aug 01 PHP
PHP实现的获取文件mimes类型工具类示例
Apr 08 PHP
PHP7 整型处理机制修改
Mar 09 PHP
PHP实现基本留言板功能原理与步骤详解
Mar 26 #PHP
php设计模式之策略模式实例分析【星际争霸游戏案例】
Mar 26 #PHP
php设计模式之状态模式实例分析【星际争霸游戏案例】
Mar 26 #PHP
php设计模式之正面模式实例分析【星际争霸游戏案例】
Mar 24 #PHP
php设计模式之模板模式实例分析【星际争霸游戏案例】
Mar 24 #PHP
php设计模式之备忘模式分析【星际争霸游戏案例】
Mar 24 #PHP
php设计模式之原型模式分析【星际争霸游戏案例】
Mar 23 #PHP
You might like
javascript setTimeout()传递函数参数(包括传递对象参数)
2010/04/07 Javascript
javascript中String类的subString()方法和slice()方法
2011/05/24 Javascript
js实时获取系统当前时间实例代码
2013/06/28 Javascript
jquery mobile实现拨打电话功能的几种方法
2013/08/05 Javascript
JavaScript执行顺序详细介绍
2013/12/04 Javascript
理解jQuery stop()方法
2014/11/21 Javascript
在JavaScript中操作数组之map()方法的使用
2015/06/09 Javascript
js实现带缓冲效果的仿QQ面板折叠菜单代码
2015/09/06 Javascript
js格式化时间的方法
2015/12/18 Javascript
Bootstrap布局组件教程之Bootstrap下拉菜单
2016/06/12 Javascript
EasyUi 打开对话框后控件赋值及赋值后不显示的问题解决办法
2017/01/19 Javascript
js实现登录与注册界面
2017/11/01 Javascript
js实现rem自动匹配计算font-size的示例
2017/11/18 Javascript
vue element-ui table表格滚动加载方法
2018/03/02 Javascript
vue项目中使用scss的方法步骤
2019/05/16 Javascript
angular异步验证防抖踩坑实录
2019/12/01 Javascript
微信小程序scroll-view锚点链接滚动跳转功能
2019/12/12 Javascript
python学习 流程控制语句详解
2016/06/01 Python
Python中psutil的介绍与用法
2019/05/02 Python
python将字符串转换成json的方法小结
2019/07/09 Python
Python文件名匹配与文件复制的实现
2020/12/11 Python
全球最大的在线橄榄球商店:Lovell Rugby
2018/05/20 全球购物
荷兰游戏商店:Allyouplay
2019/03/16 全球购物
Expedia瑞典官网:预订度假屋、酒店、汽车租赁、机票等
2021/01/23 全球购物
结构和类有什么异同
2012/07/16 面试题
应届生求职信写作技巧
2013/10/24 职场文书
函授本科自我鉴定
2013/11/03 职场文书
学生党员思想汇报
2013/12/28 职场文书
2014年学生会生活部工作总结
2014/11/07 职场文书
2014年精神文明工作总结
2014/12/23 职场文书
小班教师个人总结
2015/02/05 职场文书
民事上诉状范文
2015/05/22 职场文书
生日宴会祝酒词
2015/08/10 职场文书
pyqt5蒙版遮罩mask,setmask的使用
2021/06/11 Python
Echarts如何重新渲染实例详解
2022/05/30 Javascript
MySQL主从切换的超详细步骤
2022/06/28 MySQL