比较discuz和ecshop的截取字符串函数php版


Posted in PHP onSeptember 03, 2012

下面先给出两个版本函数的源代码以及简单测试,最后我会给出一个实用性更强的字符串截取函数。需要注意的是:这里讨论的字符串截取问题都是针对UTF-8编码的中文字符串。
discuz版本

/** 
* [discuz] 基于PHP没有安装 mb_substr 等扩展截取字符串,如果截取中文字则按2个字符计算 
* @param $string 要截取的字符串 
* @param $length 要截取的字符数 
* @param $dot 替换截掉部分的结尾字符串 
* @return 返回截取后的字符串 
*/ 
function cutstr($string, $length, $dot = '...') { 
// 如果字符串小于要截取的长度则直接返回 
// 此处使用strlen获取字符串长度有很大的弊病,比如对字符串“新年快乐”要截取4个中文字符, 
// 那么必须知道这4个中文字符的字节数,否则返回的字符串可能会是“新年快乐...” 
if (strlen($string) <= $length) { 
return $string; 
} 
// 转换原字符串中htmlspecialchars 
$pre = chr(1); 
$end = chr(1); 
$string = str_replace ( array ('&', '"', '<', '>' ), array ($pre . '&' . $end, $pre . '"' . $end, $pre . '<' . $end, $pre . '>' . $end ), $string ); 
$strcut = ''; // 初始化返回值 
// 如果是utf-8编码(这个判断有点不全,有可能是utf8) 
if (strtolower ( CHARSET ) == 'utf-8') { 
// 初始连续循环指针$n,最后一个字位数$tn,截取的字符数$noc 
$n = $tn = $noc = 0; 
while ( $n < strlen ( $string ) ) { 
$t = ord ( $string [$n] ); 
if ($t == 9 || $t == 10 || (32 <= $t && $t <= 126)) { 
// 如果是英语半角符号等,$n指针后移1位,$tn最后字是1位 
$tn = 1; 
$n++; 
$noc++; 
} elseif (194 <= $t && $t <= 223) { 
// 如果是二字节字符$n指针后移2位,$tn最后字是2位 
$tn = 2; 
$n += 2; 
$noc += 2; 
} elseif (224 <= $t && $t <= 239) { 
// 如果是三字节(可以理解为中字词),$n后移3位,$tn最后字是3位 
$tn = 3; 
$n += 3; 
$noc += 2; 
} elseif (240 <= $t && $t <= 247) { 
$tn = 4; 
$n += 4; 
$noc += 2; 
} elseif (248 <= $t && $t <= 251) { 
$tn = 5; 
$n += 5; 
$noc += 2; 
} elseif ($t == 252 || $t == 253) { 
$tn = 6; 
$n += 6; 
$noc += 2; 
} else { 
$n++; 
} 
// 超过了要取的数就跳出连续循环 
if ($noc >= $length) { 
break; 
} 
} 
// 这个地方是把最后一个字去掉,以备加$dot 
if ($noc > $length) { 
$n -= $tn; 
} 
$strcut = substr ( $string, 0, $n ); 
} else { 
// 并非utf-8编码的全角就后移2位 
for ($i = 0; $i < $length; $i ++) { 
$strcut .= ord ( $string [$i] ) > 127 ? $string [$i] . $string [++ $i] : $string [$i]; 
} 
} 
// 再还原最初的htmlspecialchars 
$strcut = str_replace( array ($pre . '&' . $end, $pre . '"' . $end, $pre . '<' . $end, $pre . '>' . $end ), array ('&', '"', '<', '>' ), $strcut ); 
$pos = strrpos ( $strcut, chr ( 1 ) ); 
if ($pos !== false) { 
$strcut = substr ( $strcut, 0, $pos ); 
} 
return $strcut . $dot; // 最后把截取加上$dot输出 
}

discuz版本的最大缺陷在于使用 strlen 获取原始字符串的长度,并用来和传入的要截取长度参数(字节数)进行比较,由于UTF-8的中文字符的字节数是不固定的,所以就会面临这样的窘境:如果要截取4个中文字符应该指定多大的截取长度呢?8字节还是12字节呢?。。。这是无法预计的,也正是因为这个问题discuz的cutstr实际是有bug的,通过下面的测试结果能看出:
$str1 = "欲穷千里目"; 
echo my_cutstr($str1, 10, "...")."\n"; // 输出:欲穷千里目... [这是一个bug,想想是什么原因导致?] 
echo my_cutstr($str1, 15, "...")."\n"; // 输出:欲穷千里目

导致上述bug的原因在与cutstr函数在截取字符的时候是将一个中文字按2个字符算,那么5个中文字就是10字符,而原始字符串的长度是15字节,所以cutstr认为“成功地”从15字符的串上截取了10个字符,然后加上了“尾巴”。要解决这个bug只要在判断一下返回的子串是否和原始串相同,如果相同就不加“尾巴”。
ecshop版
/** 
* [ecshop] 基于PHP的 mb_substr,iconv_substr 这两个扩展来截取字符串,中文字符都是按1个字符长度计算; 
* 该函数仅适用于utf-8编码的中文字符串。 
* 
* @param $str 原始字符串 
* @param $length 截取的字符数 
* @param $append 替换截掉部分的结尾字符串 
* @return 返回截取后的字符串 
*/ 
function sub_str($str, $length = 0, $append = '...') { 
$str = trim($str); 
$strlength = strlen($str); 
if ($length == 0 || $length >= $strlength) { 
return $str; 
} elseif ($length < 0) { 
$length = $strlength + $length; 
if ($length < 0) { 
$length = $strlength; 
} 
} 
if ( function_exists('mb_substr') ) { 
$newstr = mb_substr($str, 0, $length, 'utf-8'); 
} elseif ( function_exists('iconv_substr') ) { 
$newstr = iconv_substr($str, 0, $length, 'utf-8'); 
} else { 
//$newstr = trim_right(substr($str, 0, $length)); 
$newstr = substr($str, 0, $length); 
} 
if ($append && $str != $newstr) { 
$newstr .= $append; 
} 
return $newstr; 
}

ecshop版的特点和缺点都在于将中文字符算作一个字符,如果原始字符串中不含中文,比如:abcd1234,如果本意是要截取4个中文字符或者8个英文字符,那么使用ecshop的版本就得不到期望的结果,返回值的是:abcd。下面是简单的测试结果:
$str1 = "白日依山尽,黄河入海流"; 
echo $str1."\n"; 
echo my_sub_str($str1, 4, "...")."\n"; // 输出:白日依山... 
$str2 = "白1日2依3山4"; 
echo $str2."\n"; 
echo my_sub_str($str2, 4, "...")."\n"; // 输出:白1日2...

优化版
截取中文字符串的大部分应用场景是“原始字符串可以是中文、英文、数字混杂的,中文字按2个字符算,英文数字按1个字符算”,针对这个需求下面给出一个实现版本:
/** 
* 字符串截取,中文字符按2个字符计算,同时支持GBK和UTF-8编码 
* @param $string 要截取的字符串 
* @param $length 要截取的字符数 
* @param $append 添加到子串后的尾巴 
* @return 返回截取后的字符串 
*/ 
function substring($string, $length, $append = false) { 
if ( $length <= 0 ) { 
return ''; 
} 
// 检测原始字符串是否为UTF-8编码 
$is_utf8 = false; 
$str1 = @iconv("UTF-8", "GBK", $string); 
$str2 = @iconv("GBK", "UTF-8", $str1); 
if ( $string == $str2 ) { 
$is_utf8 = true; 
// 如果是UTF-8编码,则使用GBK编码的 
$string = $str1; 
} 
$newstr = ''; 
for ($i = 0; $i < $length; $i ++) { 
$newstr .= ord ($string[$i]) > 127 ? $string[$i] . $string[++$i] : $string[$i]; 
} 
if ( $is_utf8 ) { 
$newstr = @iconv("GBK", "UTF-8", $newstr); 
} 
if ($append && $newstr != $string) { 
$newstr .= $append; 
} 
return $newstr; 
}

测试结果见下(GBK和UTF-8的结果一致):
$str1 = "白日依山尽,黄河入海流"; 
echo substring($str1, 4, "...")."\n"; // 输出:白日... 
echo substring($str1, 5, "...")."\n"; // 输出:白日依... 
$str2 = "12白34日56依78山"; 
echo substring($str2, 4, "...")."\n"; // 输出:12白... 
echo substring($str2, 5, "...")."\n"; // 输出:12白3...

作者:edwardlost' blog
PHP 相关文章推荐
用php实现像JSP,ASP里Application那样的全局变量
Jan 12 PHP
php 更新数据库中断的解决方法
Jun 05 PHP
PHP下编码转换函数mb_convert_encoding与iconv的使用说明
Dec 16 PHP
浅析linux下apache服务器的配置和管理
Aug 10 PHP
PHP中常用的转义函数
Feb 28 PHP
php使用curl和正则表达式抓取网页数据示例
Apr 13 PHP
php面象对象数据库操作类实例
Dec 02 PHP
老版本PHP转义Json里的特殊字符的函数
Jun 08 PHP
浅谈htmlentities 、htmlspecialchars、addslashes的使用方法
Dec 09 PHP
thinkPHP数据查询常用方法总结【select,find,getField,query】
Mar 15 PHP
php实现基于pdo的事务处理方法示例
Jul 21 PHP
PHP实现广度优先搜索算法(BFS,Broad First Search)详解
Sep 16 PHP
Windows下部署Apache+PHP+MySQL运行环境实战
Aug 31 #PHP
关于UEditor编辑器远程图片上传失败的解决办法
Aug 31 #PHP
php数组一对一替换实现代码
Aug 31 #PHP
PHP 利用AJAX获取网页并输出的实现代码(Zjmainstay)
Aug 31 #PHP
PHP的简易冒泡法代码分享
Aug 28 #PHP
php 解决旧系统 查出所有数据分页的类
Aug 27 #PHP
PHP实现手机归属地查询API接口实现代码
Aug 27 #PHP
You might like
PHP环境搭建最新方法
2006/09/05 PHP
php array_search() 函数使用
2010/04/13 PHP
基于Zookeeper的使用详解
2013/05/02 PHP
php使用cookie保存用户登录的用户名实例
2015/01/26 PHP
PHP设计模式之工厂模式定义与用法详解
2018/04/03 PHP
Laravel框架使用monolog_mysql实现将系统日志信息保存到mysql数据库的方法
2018/08/16 PHP
Firefox 无法获取cssRules 的解决办法
2006/10/11 Javascript
js 实现复制到粘贴板的功能代码
2010/05/13 Javascript
简单的代码实现jquery定时器
2014/01/03 Javascript
JavaScript实现穷举排列(permutation)算法谜题解答
2014/12/29 Javascript
JavaScript判断是否为数组的3种方法及效率比较
2015/04/01 Javascript
JQuery EasyUI Layout 在from布局自适应窗口大小的实现方法
2016/05/28 Javascript
工作中常用的js、jquery自定义扩展函数代码片段汇总
2016/12/22 Javascript
windows下vue-cli及webpack搭建安装环境
2017/04/25 Javascript
JS实现图片点击后出现模态框效果
2017/05/03 Javascript
基于Vue 服务端Cookies删除的问题
2018/09/21 Javascript
使用mixins实现elementUI表单全局验证的解决方法
2019/04/02 Javascript
详解django模板与vue.js冲突问题
2019/07/07 Javascript
简单了解three.js 着色器材质
2020/08/03 Javascript
基于vue与element实现创建试卷相关功能(实例代码)
2020/12/07 Vue.js
[02:56]DOTA2矮人直升机 英雄基础教程
2013/11/26 DOTA
python使用xpath中遇到:到底是什么?
2018/01/04 Python
Python解决八皇后问题示例
2018/04/22 Python
python实现简易内存监控
2018/06/21 Python
python日志logging模块使用方法分析
2019/05/23 Python
Python模块_PyLibTiff读取tif文件的实例
2020/01/13 Python
Python object类中的特殊方法代码讲解
2020/03/06 Python
python实现自动清理重复文件
2020/08/24 Python
欧洲最大的拼图游戏商店:JigsawPuzzle.co.uk
2018/07/04 全球购物
澳洲本土太阳镜品牌:Quay Australia
2019/07/29 全球购物
2014年绿化工作总结
2014/12/09 职场文书
大学生求职简历自我评价
2015/03/02 职场文书
幼儿园托班开学寄语(2016秋季)
2015/12/03 职场文书
Flask使用SQLAlchemy实现持久化数据
2021/07/16 Python
使用pipenv管理python虚拟环境的全过程
2021/09/25 Python
Win10鼠标宏怎么设置?win10系统鼠标宏的设置方法
2022/08/14 数码科技