比较discuz和ecshop的截取字符串函数php版


Posted in PHP onSeptember 03, 2012

下面先给出两个版本函数的源代码以及简单测试,最后我会给出一个实用性更强的字符串截取函数。需要注意的是:这里讨论的字符串截取问题都是针对UTF-8编码的中文字符串。
discuz版本

/** 
* [discuz] 基于PHP没有安装 mb_substr 等扩展截取字符串,如果截取中文字则按2个字符计算 
* @param $string 要截取的字符串 
* @param $length 要截取的字符数 
* @param $dot 替换截掉部分的结尾字符串 
* @return 返回截取后的字符串 
*/ 
function cutstr($string, $length, $dot = '...') { 
// 如果字符串小于要截取的长度则直接返回 
// 此处使用strlen获取字符串长度有很大的弊病,比如对字符串“新年快乐”要截取4个中文字符, 
// 那么必须知道这4个中文字符的字节数,否则返回的字符串可能会是“新年快乐...” 
if (strlen($string) <= $length) { 
return $string; 
} 
// 转换原字符串中htmlspecialchars 
$pre = chr(1); 
$end = chr(1); 
$string = str_replace ( array ('&', '"', '<', '>' ), array ($pre . '&' . $end, $pre . '"' . $end, $pre . '<' . $end, $pre . '>' . $end ), $string ); 
$strcut = ''; // 初始化返回值 
// 如果是utf-8编码(这个判断有点不全,有可能是utf8) 
if (strtolower ( CHARSET ) == 'utf-8') { 
// 初始连续循环指针$n,最后一个字位数$tn,截取的字符数$noc 
$n = $tn = $noc = 0; 
while ( $n < strlen ( $string ) ) { 
$t = ord ( $string [$n] ); 
if ($t == 9 || $t == 10 || (32 <= $t && $t <= 126)) { 
// 如果是英语半角符号等,$n指针后移1位,$tn最后字是1位 
$tn = 1; 
$n++; 
$noc++; 
} elseif (194 <= $t && $t <= 223) { 
// 如果是二字节字符$n指针后移2位,$tn最后字是2位 
$tn = 2; 
$n += 2; 
$noc += 2; 
} elseif (224 <= $t && $t <= 239) { 
// 如果是三字节(可以理解为中字词),$n后移3位,$tn最后字是3位 
$tn = 3; 
$n += 3; 
$noc += 2; 
} elseif (240 <= $t && $t <= 247) { 
$tn = 4; 
$n += 4; 
$noc += 2; 
} elseif (248 <= $t && $t <= 251) { 
$tn = 5; 
$n += 5; 
$noc += 2; 
} elseif ($t == 252 || $t == 253) { 
$tn = 6; 
$n += 6; 
$noc += 2; 
} else { 
$n++; 
} 
// 超过了要取的数就跳出连续循环 
if ($noc >= $length) { 
break; 
} 
} 
// 这个地方是把最后一个字去掉,以备加$dot 
if ($noc > $length) { 
$n -= $tn; 
} 
$strcut = substr ( $string, 0, $n ); 
} else { 
// 并非utf-8编码的全角就后移2位 
for ($i = 0; $i < $length; $i ++) { 
$strcut .= ord ( $string [$i] ) > 127 ? $string [$i] . $string [++ $i] : $string [$i]; 
} 
} 
// 再还原最初的htmlspecialchars 
$strcut = str_replace( array ($pre . '&' . $end, $pre . '"' . $end, $pre . '<' . $end, $pre . '>' . $end ), array ('&', '"', '<', '>' ), $strcut ); 
$pos = strrpos ( $strcut, chr ( 1 ) ); 
if ($pos !== false) { 
$strcut = substr ( $strcut, 0, $pos ); 
} 
return $strcut . $dot; // 最后把截取加上$dot输出 
}

discuz版本的最大缺陷在于使用 strlen 获取原始字符串的长度,并用来和传入的要截取长度参数(字节数)进行比较,由于UTF-8的中文字符的字节数是不固定的,所以就会面临这样的窘境:如果要截取4个中文字符应该指定多大的截取长度呢?8字节还是12字节呢?。。。这是无法预计的,也正是因为这个问题discuz的cutstr实际是有bug的,通过下面的测试结果能看出:
$str1 = "欲穷千里目"; 
echo my_cutstr($str1, 10, "...")."\n"; // 输出:欲穷千里目... [这是一个bug,想想是什么原因导致?] 
echo my_cutstr($str1, 15, "...")."\n"; // 输出:欲穷千里目

导致上述bug的原因在与cutstr函数在截取字符的时候是将一个中文字按2个字符算,那么5个中文字就是10字符,而原始字符串的长度是15字节,所以cutstr认为“成功地”从15字符的串上截取了10个字符,然后加上了“尾巴”。要解决这个bug只要在判断一下返回的子串是否和原始串相同,如果相同就不加“尾巴”。
ecshop版
/** 
* [ecshop] 基于PHP的 mb_substr,iconv_substr 这两个扩展来截取字符串,中文字符都是按1个字符长度计算; 
* 该函数仅适用于utf-8编码的中文字符串。 
* 
* @param $str 原始字符串 
* @param $length 截取的字符数 
* @param $append 替换截掉部分的结尾字符串 
* @return 返回截取后的字符串 
*/ 
function sub_str($str, $length = 0, $append = '...') { 
$str = trim($str); 
$strlength = strlen($str); 
if ($length == 0 || $length >= $strlength) { 
return $str; 
} elseif ($length < 0) { 
$length = $strlength + $length; 
if ($length < 0) { 
$length = $strlength; 
} 
} 
if ( function_exists('mb_substr') ) { 
$newstr = mb_substr($str, 0, $length, 'utf-8'); 
} elseif ( function_exists('iconv_substr') ) { 
$newstr = iconv_substr($str, 0, $length, 'utf-8'); 
} else { 
//$newstr = trim_right(substr($str, 0, $length)); 
$newstr = substr($str, 0, $length); 
} 
if ($append && $str != $newstr) { 
$newstr .= $append; 
} 
return $newstr; 
}

ecshop版的特点和缺点都在于将中文字符算作一个字符,如果原始字符串中不含中文,比如:abcd1234,如果本意是要截取4个中文字符或者8个英文字符,那么使用ecshop的版本就得不到期望的结果,返回值的是:abcd。下面是简单的测试结果:
$str1 = "白日依山尽,黄河入海流"; 
echo $str1."\n"; 
echo my_sub_str($str1, 4, "...")."\n"; // 输出:白日依山... 
$str2 = "白1日2依3山4"; 
echo $str2."\n"; 
echo my_sub_str($str2, 4, "...")."\n"; // 输出:白1日2...

优化版
截取中文字符串的大部分应用场景是“原始字符串可以是中文、英文、数字混杂的,中文字按2个字符算,英文数字按1个字符算”,针对这个需求下面给出一个实现版本:
/** 
* 字符串截取,中文字符按2个字符计算,同时支持GBK和UTF-8编码 
* @param $string 要截取的字符串 
* @param $length 要截取的字符数 
* @param $append 添加到子串后的尾巴 
* @return 返回截取后的字符串 
*/ 
function substring($string, $length, $append = false) { 
if ( $length <= 0 ) { 
return ''; 
} 
// 检测原始字符串是否为UTF-8编码 
$is_utf8 = false; 
$str1 = @iconv("UTF-8", "GBK", $string); 
$str2 = @iconv("GBK", "UTF-8", $str1); 
if ( $string == $str2 ) { 
$is_utf8 = true; 
// 如果是UTF-8编码,则使用GBK编码的 
$string = $str1; 
} 
$newstr = ''; 
for ($i = 0; $i < $length; $i ++) { 
$newstr .= ord ($string[$i]) > 127 ? $string[$i] . $string[++$i] : $string[$i]; 
} 
if ( $is_utf8 ) { 
$newstr = @iconv("GBK", "UTF-8", $newstr); 
} 
if ($append && $newstr != $string) { 
$newstr .= $append; 
} 
return $newstr; 
}

测试结果见下(GBK和UTF-8的结果一致):
$str1 = "白日依山尽,黄河入海流"; 
echo substring($str1, 4, "...")."\n"; // 输出:白日... 
echo substring($str1, 5, "...")."\n"; // 输出:白日依... 
$str2 = "12白34日56依78山"; 
echo substring($str2, 4, "...")."\n"; // 输出:12白... 
echo substring($str2, 5, "...")."\n"; // 输出:12白3...

作者:edwardlost' blog
PHP 相关文章推荐
具有时效性的php加密解密函数代码
Jun 19 PHP
php cli换行示例
Apr 22 PHP
PHP函数分享之curl方式取得数据、模拟登陆、POST数据
Jun 04 PHP
PHP多个文件上传到服务器实例
Oct 29 PHP
Nginx服务器上安装并配置PHPMyAdmin的教程
Aug 18 PHP
ThinkPHP中html:list标签用法分析
Jan 09 PHP
PHP基于单例模式实现的mysql类
Jan 09 PHP
php面向对象值单例模式
May 03 PHP
PHP获取指定时间段之间的 年,月,天,时,分,秒
Jun 05 PHP
深入理解PHP JSON数组与对象
Jul 19 PHP
JS+PHP实现用户输入数字后显示最大的值及所在位置
Jun 19 PHP
php给数组赋值的实例方法
Sep 26 PHP
Windows下部署Apache+PHP+MySQL运行环境实战
Aug 31 #PHP
关于UEditor编辑器远程图片上传失败的解决办法
Aug 31 #PHP
php数组一对一替换实现代码
Aug 31 #PHP
PHP 利用AJAX获取网页并输出的实现代码(Zjmainstay)
Aug 31 #PHP
PHP的简易冒泡法代码分享
Aug 28 #PHP
php 解决旧系统 查出所有数据分页的类
Aug 27 #PHP
PHP实现手机归属地查询API接口实现代码
Aug 27 #PHP
You might like
PHP生成Flash动画的实现代码
2010/03/12 PHP
PHP与Java进行通信的实现方法
2013/10/21 PHP
两千行代码的PHP学习笔记汇总
2014/10/05 PHP
php微信公众平台开发之获取用户基本信息
2015/08/17 PHP
YII框架中使用memcache的方法详解
2017/08/02 PHP
php打开本地exe程序,js打开本地exe应用程序,并传递相关参数方法
2018/02/06 PHP
laravel 解决groupBy时出现的错误 isn't in Group By问题
2019/10/17 PHP
PHP过滤器 filter_has_var() 函数用法实例分析
2020/04/23 PHP
IE8 引入跨站数据获取功能说明
2008/07/22 Javascript
js QQ客服悬浮效果实现代码
2014/12/12 Javascript
jQuery实现冻结表格行和列
2015/04/29 Javascript
javascript实现任务栏消息提示的简单实例
2016/05/31 Javascript
vue的状态管理模式vuex
2017/11/30 Javascript
vue渲染时闪烁{{}}的问题及解决方法
2018/03/28 Javascript
详解Vue基于 Nuxt.js 实现服务端渲染(SSR)
2018/04/05 Javascript
深入浅出理解JavaScript闭包的功能与用法
2018/08/01 Javascript
Vue.js 实现数据展示全部和收起功能
2018/09/05 Javascript
详解在微信小程序的JS脚本中使用Promise来优化函数处理
2019/03/06 Javascript
vue elementUI 表单校验的实现代码(多层嵌套)
2019/11/06 Javascript
[04:14]从西雅图到上海——玩家自制DOTA2主题歌曲应援TI9
2019/07/11 DOTA
Python中的迭代器与生成器高级用法解析
2016/06/28 Python
pandas string转dataframe的方法
2018/04/11 Python
python多进程提取处理大量文本的关键词方法
2018/06/05 Python
Django-Model数据库操作(增删改查、连表结构)详解
2019/07/17 Python
Python之字典对象的几种创建方法
2020/09/30 Python
关于css兼容性问题及一些常见问题汇总
2016/05/03 HTML / CSS
html5 Canvas画图教程(6)—canvas里画曲线之arcTo方法
2013/01/09 HTML / CSS
猫途鹰英国网站:TripAdvisor英国(旅游社区和旅游评论)
2016/08/30 全球购物
巴西网上药房:onofre
2016/11/21 全球购物
低碳环保倡议书
2014/04/14 职场文书
党员个人对照检查材料
2014/10/01 职场文书
企业务虚会发言材料
2014/10/20 职场文书
暖春观后感
2015/06/08 职场文书
2016年感恩教师节活动总结
2016/04/01 职场文书
MySQL慢查询的坑
2021/04/28 MySQL
JavaScript中的LHS和RHS分析详情
2022/04/06 Javascript