浅析PHP关键词替换的类(避免重复替换,保留与还原原始链接)


Posted in PHP onSeptember 22, 2015

php关键词替换的类(避免重复替换,保留与还原原始链接)

本节主要内容:

一个关键词替换的类

主要可以用于关键词过滤,或关键词查找替换方面。

实现过程分析:

关键词替换,其实就是一个str_replace()的过程,如果是单纯的str_replace面对10W的关键词,1W字的文章也只需要2秒左右。

问题所在:

关键词替换了不只一次,比如a需要替换成<a>a</a>,但结果可能是<a><a>a</a></a>等这样。

为此,需要一个方法保护好已经替换了的标签,那么在处理文章之前,就先把标签替换掉比如[_tnum_]在文章处理好了以后再把它还原。

另外一个问题,如果关键字或文章中有[_tnum_]本身怎么办,那么就需要排除这种这里就不能使用str_replace了而需要用到preg_replace用正则来排除。

第三个问题,如果有两个关键字a和ab怎么办,希望先把长的匹配掉,短后匹配,这样就需要在匹配前先排序。

最后一个问题,当str_replace改成了preg_replace以后,变慢了同样一段话10W次匹配要5秒钟,字符串处理的函数中strpos要快一些,那么先用strpos找出关键词即可,10W次查询还不到1秒。就算是100万才道8秒多。

一个关键词匹配替换的类,代码:

代码示例:

<?php
 /* 
  * 关键词匹配类
  * @author ylx <ylx@gmail.com>
  * @packet mipang
  * 使用实例
  * $str = "绿壳蛋鸡撒范德萨下一年,下一年的洒落开房间卢卡斯地方军";
  * $key = new KeyReplace($str,array("xxxx"=>"sadf","下一年"=>'http://baidu.com',"下一年"=>'google.com'));
  * echo $key->getResultText();
  * echo $key->getRuntime();
  */
class KeyReplace
{
 private $keys = array();
 private $text = "";
 private $runtime = ;
 private $url = true;
 private $stopkeys = array();
 private $all = false;
 /**
  * @access public  
  * @param string $text 指定被处理的文章
  * @param array $keys 指定字典词组array(key=>url,...) url可以是数组,如果是数组将随机替换其中的一个
  * @param array $stopkeys 指定停止词array(key,...) 这里面的词将不会被处理
  * @param boolean $url true 表示替换成链接否则只替换
  * @param boolean $all true 表示替换所有找到的词,否则只替换第一次
  */
 public function __construct($text='',$keys=array(),$url=true,$stopkeys=array(),$all=false) {
  $this->keys = $keys;
  $this->text = $text;
  $this->url = $url;
  $this->stopkeys = $stopkeys;
  $this->all = $all;
 }
 /**
  * 获取处理好的文章
  * @access public  
  * @return string text
  */
 public function getResultText() {
  $start = microtime(true);
  $keys = $this->hits_keys();
  $keys_tmp = array_keys()($keys);
  function cmp($a, $b){
   if (mb_strlen($a) == mb_strlen($b)) {
 return ;
   }
   return (mb_strlen($a) < mb_strlen($b)) ? : -;
  }
  usort($keys_tmp,"cmp");
  foreach($keys_tmp as $key){
   if(is_array($keys[$key])){
 $url = $keys[$key][rand(,count($keys[$key])-)];
   }else
 $url = $keys[$key];
   $this->text = $this->r_s($this->text,$key,$url);
  }
  $this->runtime = microtime(true)-$start;
  return $this->text;
 }
 /**
  * 获取处理时间
  * @access public  
  * @return float 
  */
 public function getRuntime() {
  return $this->runtime;
 }
 /**
  * 设置关键词
  * @access public  
  * @param array $keys array(key=>url,...)
  */
 public function setKeys($keys) {
  $this->keys = $keys;
 }
 /**
  * 设置停止词
  * @access public  
  * @param array $keys array(key,...)
  */
 public function setStopKeys($keys) {
  $this->stopkeys = $keys;
 }
 /**
  * 设置文章
  * @access public  
  * @param string $text 
  */
 public function setText($text) {
  $this->text = $text;
 }
 /**
  * 用来找到字符串里面命中的关键词
  * @access public
  * @return array $keys 返回匹配到的词array(key=>url,...)
  */
 public function hits_keys(){
  $ar = $this->keys;
  $ar = $ar?$ar:array();
  $result=array();
  $str = $this->text;
  foreach($ar as $k=>$url){
   $k = trim($k);
   if(!$k)
 continue;
   if(strpos($str,$k)!==false && !in_array($k,$this->stopkeys)){
 $result[$k] = $url;
   }
  }
  return $result?$result:array();
 }
 /**
  * 用来找到字符串里面命中的停止词
  * @access public
  * @return array $keys 返回匹配到的词array(key,...)
  */
 public function hits_stop_keys(){
  $ar = $this->stopkeys;
  $ar = $ar?$ar:array();
  $result=array();
  $str = $this->text;
  foreach($ar as $k){
   $k = trim($k);
   if(!$k)
 continue;
   if(strpos($str,$k)!==false && in_array($k,$this->stopkeys)){
 $result[] = $k;
   }
  }
  return $result?$result:array();
 }
 /**
  * 处理替换过程 
  * @access private
  * @param string $text 被替换者
  * @param string $key 关键词
  * @param string $url 链接
  * @return string $text 处理好的文章
  */
 private function r_s($text,$key,$url){
  $tmp = $text;
  $stop_keys = $this->hits_stop_keys();
  $stopkeys = $tags = $a = array();
  if(preg_match_all("#<a[^>]+>[^<]*</a[^>]*>#su",$tmp,$m)){
   $a=$m[];
   foreach($m[] as $k=>$z){
 $z = preg_replace("#\##s","\#",$z);
 $tmp = preg_replace('#'.$z.'#s',"[_a".$k."_]",$tmp,);
   }
  };
  if(preg_match_all("#<[^>]+>#s",$tmp,$m)){
   $tags = $m[];
   foreach($m[] as $k=>$z){
 $z = preg_replace("#\##s","\#",$z);
 $tmp = preg_replace('#'.$z.'#s',"[_tag".$k."_]",$tmp,);
   }
  }
  if(!empty($stop_keys)){
   if(preg_match_all("#".implode("|",$stop_keys)."#s",$tmp,$m)){
 $stopkeys = $m[];
 foreach($m[] as $k=>$z){
  $z = preg_replace("#\##s","\#",$z);
  $tmp = preg_replace('#'.$z.'#s',"[_s".$k."_]",$tmp,);
 }
   }
  }
  $key = preg_replace("#([\#\(\)\[\]\*])#s","\\\\$",$key);
  if($this->url)
   $tmp = preg_replace("#(?!\[_s|\[_a|\[_|\[_t|\[_ta|\[_tag)".$key."(?!ag\d+_\]|g\d+_\]|\d+_\]|s\d+_\]|_\])#us",'<a href="'.$url.'">'.$key.'</a>',$tmp,$this->all?-:);
  else
   $tmp = preg_replace("#(?!\[_s|\[_a|\[_|\[_t|\[_ta|\[_tag)".$key."(?!ag\d+_\]|g\d+_\]|\d+_\]|s\d+_\]|_\])#us",$url,$tmp,$this->all?-:);
  if(!empty($a)){
   foreach($a as $n=>$at){
 $tmp = str_replace("[_a".$n."_]",$at,$tmp);
   }  
  }  
  if(!empty($tags)){
   foreach($tags as $n=>$at){
 $tmp = str_replace("[_tag".$n."_]",$at,$tmp);
   }  
  }  
  if(!empty($stopkeys)){
   foreach($stopkeys as $n=>$at){
 $tmp = str_replace("[_s".$n."_]",$at,$tmp);
   }  
  }  
  return $tmp;
 }
}

以上就是本文给大家介绍的PHP关键词替换的类(避免重复替换,保留与还原原始链接)。

PHP 相关文章推荐
提取HTML标签
Oct 09 PHP
PHP中Session的概念
Oct 09 PHP
PHP 模板高级篇总结
Dec 21 PHP
常用的php ADODB使用方法集锦
Mar 25 PHP
php 获取远程网页内容的函数
Sep 08 PHP
php下关于中英数字混排的字符串分割问题
Apr 06 PHP
什么情况下可以不写PHP的闭合标签“?&gt;”
Aug 28 PHP
php中解析带中文字符的url函数分享
Jan 20 PHP
php递归遍历多维数组的方法
Apr 18 PHP
PHP cURL初始化和执行方法入门级代码
May 28 PHP
Smarty分页实现方法完整实例
May 11 PHP
PHP后期静态绑定实例浅析
Dec 21 PHP
PHP实现搜索相似图片
Sep 22 #PHP
从刷票了解获得客户端IP的方法
Sep 21 #PHP
fsockopen pfsockopen函数被禁用,SMTP发送邮件不正常的解决方法
Sep 20 #PHP
分享ThinkPHP3.2中关联查询解决思路
Sep 20 #PHP
使用PHPCMS搭建wap手机网站
Sep 20 #PHP
求帮忙修改个php curl模拟post请求内容后并下载文件的解决思路
Sep 20 #PHP
PHP执行SQL文件并将SQL文件导入到数据库
Sep 17 #PHP
You might like
PHP4 与 MySQL 数据库操作函数详解
2006/10/09 PHP
谈谈PHP语法(5)
2006/10/09 PHP
PHP编程函数安全篇
2013/01/08 PHP
php获取访问者浏览页面的浏览器类型
2017/01/23 PHP
通过修改Laravel Auth使用salt和password进行认证用户详解
2017/08/17 PHP
用jQuery实现检测浏览器及版本的脚本代码
2008/01/22 Javascript
javascript 写类方式之五
2009/07/05 Javascript
JavaScript 基础篇之对象、数组使用介绍(三)
2012/04/07 Javascript
JQuery制作的放大效果的popup对话框(未添加任何jquery plugin)分享
2013/04/28 Javascript
javascript实现信息的显示和隐藏如注册页面
2013/12/03 Javascript
原生JS京东轮播图代码
2017/03/22 Javascript
基于vue2.0实现简单轮播图
2017/11/27 Javascript
ReactNative中使用Redux架构总结
2017/12/15 Javascript
浅谈webpack对样式的处理
2018/01/05 Javascript
layer插件select选中默认值的方法
2018/08/14 Javascript
js序列化和反序列化的使用讲解
2019/01/19 Javascript
微信小程序用户授权,以及判断登录是否过期的方法
2019/05/10 Javascript
微信小程序获取用户信息及手机号(后端TP5.0)
2019/09/12 Javascript
利用vue3+ts实现管理后台(增删改查)
2020/10/30 Javascript
js+html+css实现手动轮播和自动轮播
2020/12/30 Javascript
深入理解javascript中的this
2021/02/08 Javascript
编写Python脚本来获取mp3文件tag信息的教程
2015/05/04 Python
Python3.6日志Logging模块简单用法示例
2018/06/14 Python
[原创]Python入门教程2. 字符串基本操作【运算、格式化输出、常用函数】
2018/10/29 Python
Python操作Excel插入删除行的方法
2018/12/10 Python
Django REST framework视图的用法
2019/01/16 Python
对python文件读写的缓冲行为详解
2019/02/13 Python
scrapy处理python爬虫调度详解
2020/11/23 Python
使用html2canvas实现浏览器截图的示例代码
2018/01/26 HTML / CSS
英国网上香水店:Fragrance Direct
2016/07/20 全球购物
英国Lookfantastic中文网站:护肤品美妆美发购物(英国直邮)
2020/04/27 全球购物
幼教求职信
2014/03/12 职场文书
医院义诊活动总结
2014/07/04 职场文书
商务信函英语问候语
2015/11/10 职场文书
《去年的树》教学反思
2016/02/18 职场文书
python 调用js的四种方式
2021/04/11 Python