PHP 与 UTF-8 的最佳实践详细介绍


Posted in PHP onJanuary 04, 2017

《PHP中的字符串、编码、UTF-8》一文中描述了一些列的基础知识,比较枯燥,现在来说点有用的——PHP 字符串处理的最佳实践,本文是“PHP、字符串、编码、UTF-8”相关知识的第二部分。先说结论—— 在 PHP 中的各个方面使用 UTF-8 编码。

PHP 语言层面是不支持 Unicode字符集的,但是可以通过 UTF-8 编码能处理大部分问题。

最佳实践就是明确知道输入编码(不知道就检测),内部统一转换为 UTF-8 编码,输出编码也统一是 UTF-8编码。

PHP 层面如何处理 UTF-8

当操作 Unicode 字符集的时候,请务必安装 mbstring 扩展,并使用相应的函数代替原生的字符串函数。举个例子,一个文件编码为 UTF-8 的 PHP 代码,假如使用 strlen() 函数是错误的,请使用 mb_strlen() 函数代替。

mbstring 扩展大部分的函数都需要基于一个编码(内部编码)来处理,请务必统一使用 UTF-8 编码,这个大部分可以在 PHP.INI 中配置。

从 PHP 5.6 开始,default_charset 配置可以替换 mbstring.http_input,mbstring.http_output 。

另外一个重要的配置就是 mbstring.language,这个默认值是 Neutral(UTF-8)。

注意文件编码和 mbstring 扩展的内部编码不是同一个概念。

概括的说来:

  • PHP.INI 中涉及到 mbstring 扩展的部分尽量使用 UTF-8。
  • 请用 mbstring 扩展函数代替原生字符串操作函数。
  • 在使用相关函数的时候,请务必了解你操作的字符的编码是什么,在使用对应函数的时候,显示的写上 UTF-8 编码参数,比如 htmlentities() 函数的第三个参数显示写上 UTF-8。

文件 IO 操作 如何处理 UTF-8

这里举个例子,假如你要打开一个文件,但是不知道文件内容是什么编码的,那么如何处理呢?

最佳实践就是,在打开的时候统一转换成 UTF-8,修改内容后就再转回原来的编码并保存到文件。看代码把:

if ( mb_internal_encoding()!="UTF-8") {
    mb_internal_encoding("UTF-8");
}

$file = "file.txt"; //一个编码为gbk的中文文件
$str= file_get_contents($file);
//不管来源是什么编码,统一显示的时候转换为 UTF-8
 if (mb_check_encoding($str,"GBK")) 
  $str = mb_convert_encoding($str,"UTF-8",“GBK”); 

$str ="修改内容";
$str = mb_convert_encoding($str,$srcbm,"UTF-8"); //原样转回去
file_put_contents($file,$str);

Mysql 和 UTF-8 的最佳实践

这个相对简单,首先保证你的 Mysql 都是 UTF-8。然后 Mysql 客户端连接的时候也保持 UTF-8,具体到 PHP 中,就是 imysql 或者 PDO 扩展连接 Mysql 的时候都设置 UTF-8 作为连接编码,二边保持一致,一般就不会遇到问题。

浏览器和 UTF-8 的最佳实践

这个也比较简单,就是你的输出内容假如是网页,那么你的字符串处理输出最总请保持为 UTF-8 ;同时 PHP.INI 中也明确设定 default_charset 为 UTF-8;HTML 的 Meta Tag 也明确标识为 UTF-8。

现在万事大吉了吗,并没有,虽然服务器和浏览器让用户使用 UTF-8 编码,但是用户的行为并没有约束性,他可能输入的是其他编码的字符,或者上传的文件名是其他编码的字符,那么怎么办呢?可以通过 mb_http_input() 和 mb_check_encoding() 函数来检测用户的编码,然后内部转换为 UTF-8。确保在任何一个层面,最终处理的是 UTF-8 编码。换句话说,需要手段能够知晓你的输入是什么编码的,处理完成后控制输出的编码是 UTF-8。

不建议使用 mbstring.encoding_translation 指令 和 mb_detect_encoding() 函数。折磨我半天。

操作系统和 UTF-8 的最佳实践

由于操作系统的原因,PHP 处理 Unicode 文件名的时候会有不同的处理机制。

在 Linux 中,文件名始终是 UTF-8 编码的,而在中文 Windows 环境下,文件名始终是 GBK 编码的,记住这一点就可以了。

通过例子说明下:

//命令行程序函数,运行在中文版 Windows 10 操作系统 ,文件编码为 UTF-8

function filenameexample() {
  $filename = "测试.txt" ;
  $gbk_filename = iconv("UTF-8","GBK",$filename);
  file_put_contents($gbk_filename, "测试");
  echo file_get_contents($gbk_filename);
}

function scandirexample() {
  $arr = scandir("./tmp");
  foreach ($arr as $v) {
    if ($v == "." || $v =="..")
      continue ;
    $filename = iconv( "GBK","UTF-8",$v ) ;
    $content = file_get_contents("./tmp/" . $v );
  }
}

假如不想写写兼容 Windows 和 linux 的程序,可以对文件名进行 urlencode 编码,比如:

function urlencodeexample() {
  $filename = "测试2.txt" ;
  $urlencodefilename = urlencode($filename) ;
  file_put_contents($urlencodefilename, "测试");
  echo file_get_contents($urlencodefilename);
 }

在用 PHP 通过 header() 函数下载文件的时候,也要考虑浏览器和操作系统(大部分人使用的是 Windows),对于 Chrome 来说,输出的文件名编码可以是 UTF-8,Chrome 会自动将文件名转换为 GBK 编码。

而对于低版本的 IE 来说,它继承了操作系统的环境,所以下载文件名假如是中文必须转码为 UTF-8 编码,否则下载的时候用户看到的是乱码文件名。通过代码来说明:

$agent=$_SERVER["HTTP_USER_AGENT"];
if(strpos($agent,'MSIE')!==false {
  $filename = iconv("UTF-8","GBK","附件.txt");
  header("Content-Disposition: attachment; filename=\"$filename\"");
}

感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!

PHP 相关文章推荐
php获得文件扩展名三法
Nov 25 PHP
PHP实现生成唯一编号(36进制的不重复编号)
Jul 01 PHP
PHP中exec函数和shell_exec函数的区别
Aug 20 PHP
PHP产生不重复随机数的5个方法总结
Nov 12 PHP
php进行支付宝开发中return_url和notify_url的区别分析
Dec 22 PHP
Laravel 中获取上一篇和下一篇数据
Jul 27 PHP
利用PHP如何写APP接口详解
Aug 23 PHP
Django 中 cookie的使用
Aug 17 PHP
不常用但很实用的PHP预定义变量分析
Jun 25 PHP
laravel框架上传图片实现实时预览功能
Oct 14 PHP
thinkphp5使html5实现动态跳转的例子
Oct 16 PHP
PHP mkdir创建文件夹实现方法解析
Nov 13 PHP
详解Yii2 定制表单输入字段的标签和样式
Jan 04 #PHP
PHPExcel导出2003和2007的excel文档功能示例
Jan 04 #PHP
CI框架实现优化文件上传及多文件上传的方法
Jan 04 #PHP
PHP搭建大文件切割分块上传功能示例
Jan 04 #PHP
php实现的简单中文验证码功能示例
Jan 03 #PHP
php与c 实现按行读取文件实例代码
Jan 03 #PHP
浅谈PHP安全防护之Web攻击
Jan 03 #PHP
You might like
php递归函数三种实现方法及如何实现数字累加
2015/08/07 PHP
PHP模板引擎Smarty内建函数foreach,foreachelse用法分析
2016/04/11 PHP
PHP中实现中文字串截取无乱码的解决方法
2018/05/29 PHP
PHP实现用session来实现记录用户登陆信息
2018/10/15 PHP
详解使用php-cs-fixer格式化代码
2020/09/16 PHP
Javascript变量函数浅析
2011/09/02 Javascript
幻灯片带网页设计中的20个奇妙应用示例小结
2012/05/27 Javascript
js鼠标点击事件在各个浏览器中的写法及Event对象属性介绍
2013/01/24 Javascript
简介JavaScript中POSITIVE_INFINITY值的使用
2015/06/05 Javascript
jQuery蓝色风格滑动导航栏代码分享
2015/08/19 Javascript
关注jquery技巧提高jquery技能(前端开发必学)
2015/11/02 Javascript
javascript性能优化之事件委托实例详解
2015/12/12 Javascript
Angularjs 滚动加载更多数据
2016/03/17 Javascript
微信小程序 常见问题总结(4058,40013)及解决办法
2017/01/11 Javascript
jQuery实现checkbox的简单操作
2017/11/18 jQuery
vue form 表单提交后刷新页面的方法
2018/09/04 Javascript
Js视频播放器插件Video.js使用方法详解
2020/02/04 Javascript
Python Django2.0集成Celery4.1教程
2019/11/19 Python
Python 静态方法和类方法实例分析
2019/11/21 Python
python误差棒图errorbar()函数实例解析
2020/02/11 Python
Python对Tornado请求与响应的数据处理
2020/02/12 Python
python 实现PIL模块在图片画线写字
2020/05/16 Python
如何利用python发送邮件
2020/09/26 Python
DC Shoes澳大利亚官方网上商店:购买DC鞋子
2019/10/25 全球购物
SQL Server里面什么样的视图才能创建索引
2015/04/17 面试题
商务日语毕业生自荐信
2013/11/23 职场文书
财务管理个人自荐书范文
2013/11/24 职场文书
陈欧广告词
2014/03/14 职场文书
教师考核材料
2014/05/21 职场文书
优秀家长自荐材料
2014/08/26 职场文书
高校师德师风自我剖析材料
2014/09/29 职场文书
租赁协议书
2015/01/27 职场文书
烛光里的微笑观后感
2015/06/17 职场文书
详解前端任务构建利器Gulp.js使用指南
2021/04/30 Javascript
Redis如何使用乐观锁(CAS)保证数据一致性
2022/03/25 Redis
Pandas数据结构之Series的使用
2022/03/31 Python