PHPAnalysis中文分词类详解


Posted in PHP onJune 13, 2014

PHPAnalysis是目前广泛使用的中文分词类,使用反向匹配模式分词,因此兼容编码更广泛,现将其变量与常用函数详解如下:

一、比较重要的成员变量

$resultType   = 1        生成的分词结果数据类型(1 为全部, 2为 词典词汇及单个中日韩简繁字符及英文, 3 为词典词汇及英文)
                                    这个变量一般用 SetResultType( $rstype ) 这方法进行设置。
$notSplitLen  = 5        切分句子最短长度
$toLower      = false    把英文单词全部转小写
$differMax    = false    使用最大切分模式对二元词进行消岐
$unitWord     = true     尝试合并单字(即是新词识别)
$differFreq   = false    使用热门词优先模式进行消岐

二、主要成员函数列表

1、public function __construct($source_charset='utf-8', $target_charset='utf-8', $load_all=true, $source='')
函数说明:构造函数
参数列表:
$source_charset      源字符串编码
$target_charset      目录字符串编码
$load_all            是否完全加载词典(此参数已经作废)
$source              源字符串
如果输入输出都是utf-8,实际上可以不必使用任何参数进行初始化,而是通过 SetSource 方法设置要操作的文本

2、public function SetSource( $source, $source_charset='utf-8', $target_charset='utf-8' )
函数说明:设置源字符串
参数列表:
$source              源字符串
$source_charset      源字符串编码
$target_charset      目录字符串编码
返回值:bool

3、public function StartAnalysis($optimize=true)
函数说明:开始执行分词操作
参数列表:
$optimize            分词后是否尝试优化结果
返回值:void
一个基本的分词过程:
//////////////////////////////////////
$pa = new PhpAnalysis();

$pa->SetSource('需要进行分词的字符串');

//设置分词属性
$pa->resultType = 2;
$pa->differMax  = true;

$pa->StartAnalysis();

//获取你想要的结果
$pa->GetFinallyIndex();
////////////////////////////////////////

4、public function SetResultType( $rstype )
函数说明:设置返回结果的类型
实际是对成员变量$resultType的操作
参数 $rstype 值为:
1 为全部, 2为 词典词汇及单个中日韩简繁字符及英文, 3 为词典词汇及英文
返回值:void

5、public function GetFinallyKeywords( $num = 10 )
函数说明:获取出现频率最高的指定词条数(通常用于提取文档关键字)
参数列表:
$num = 10  返回词条个数
返回值:用","分隔的关键字列表

6、public function GetFinallyResult($spword=' ')
函数说明:获得最终分词结果
参数列表:
$spword    词条之间的分隔符
返回值:string

7、public function GetSimpleResult()
函数说明:获得粗分结果
返回值:array

8、public function GetSimpleResultAll()
函数说明:获得包含属性信息的粗分结果
属性(1中文词句、2 ANSI词汇(包括全角),3 ANSI标点符号(包括全角),4数字(包括全角),5 中文标点或无法识别字符)
返回值:array

9、public function GetFinallyIndex()
函数说明:获取hash索引数组
返回值:array('word'=>count,...) 按出现频率排序

10、public function MakeDict( $source_file, $target_file='' )
函数说明:把文本文件词库编译成词典
参数列表:
$source_file   源文本文件
$target_file   目标文件(如果不指定,则为当前词典)
返回值:void

11、public function ExportDict( $targetfile )
函数说明:导出当前词典全部词条为文本文件
参数列表:
$targetfile  目标文件
返回值:void

PHP 相关文章推荐
一个程序下载的管理程序(一)
Oct 09 PHP
用PHP伪造referer突破网盘禁止外连的代码
Jun 15 PHP
PHP syntax error, unexpected $end 错误的一种原因及解决
Oct 25 PHP
php下将XML转换为数组
Jan 01 PHP
PHP5中新增stdClass 内部保留类
Jun 13 PHP
php中判断文件空目录是否有读写权限的函数代码
Aug 07 PHP
用php实现选择排序的解决方法
May 04 PHP
PHP+Mysql+jQuery实现发布微博程序 php篇
Oct 15 PHP
使用PHP+AJAX让WordPress动态加载文章的教程
Dec 11 PHP
[原创]PHP正则匹配中英文、数字及下划线的方法【用户名验证】
Aug 01 PHP
php curl批处理实现可控并发异步操作示例
May 09 PHP
七种PHP开发环境搭建工具
Jun 28 PHP
ThinkPHP缓存方法S()概述
Jun 13 #PHP
采用ThinkPHP中F方法实现快速缓存实例
Jun 13 #PHP
浅析ThinkPHP中execute和query方法的区别
Jun 13 #PHP
采用thinkphp自带方法生成静态html文件详解
Jun 13 #PHP
PHP中使用gettext解决国际化问题的例子(i18n)
Jun 13 #PHP
Yii结合CKEditor实现图片上传功能
Jun 13 #PHP
在Yii框架中使用PHP模板引擎Twig的例子
Jun 13 #PHP
You might like
利用中国天气预报接口实现简单天气预报
2014/01/20 PHP
跟我学Laravel之配置Laravel
2014/10/15 PHP
php支付宝手机网页支付类实例
2015/03/04 PHP
纯php生成随机密码
2015/10/30 PHP
thinkPHP实现多字段模糊匹配查询的方法
2016/12/01 PHP
快速解决PHP调用Word组件DCOM权限的问题
2017/12/27 PHP
js 事件处理函数间的Event物件是否全等
2011/04/08 Javascript
jquery利用event.which方法获取键盘输入值的代码
2011/10/09 Javascript
Jquery提交表单 Form.js官方插件介绍
2012/03/01 Javascript
Extjs中ComboBoxTree实现的下拉框树效果(自写)
2013/05/28 Javascript
js判断设备是否为PC并调整图片大小
2014/02/12 Javascript
jQuery实现数字加减效果汇总
2014/12/16 Javascript
JavaScript的函数式编程基础指南
2016/03/19 Javascript
JavaScript判断用户名和密码不能为空的实现代码
2016/05/16 Javascript
js实现为a标签添加事件的方法(使用闭包循环)
2016/08/02 Javascript
jQuery多个版本和其他js库冲突的解决方法
2016/08/11 Javascript
微信小程序之仿微信漂流瓶实例
2016/12/09 Javascript
JS正则表达式判断有效数实例代码
2017/03/13 Javascript
基于jQuery的表单填充实例
2017/08/22 jQuery
BootStrap给table表格的每一行添加一个按钮事件
2017/09/07 Javascript
jQuery表单选择器用法详解
2019/08/22 jQuery
json字符串对象转换代码实例
2019/09/28 Javascript
[50:05]VGJ.S vs OG 2018国际邀请赛淘汰赛BO3 第二场 8.22
2018/08/23 DOTA
python操作字典类型的常用方法(推荐)
2016/05/16 Python
python中字符串比较使用is、==和cmp()总结
2018/03/18 Python
Python 创建新文件时避免覆盖已有的同名文件的解决方法
2018/11/16 Python
Tensorflow实现在训练好的模型上进行测试
2020/01/20 Python
浅谈Django QuerySet对象(模型.objects)的常用方法
2020/03/28 Python
django 实现手动存储文件到model的FileField
2020/03/30 Python
Jmeter HTTPS接口测试证书导入过程图解
2020/07/22 Python
Bergfreunde丹麦:登山装备网上零售商
2017/02/26 全球购物
Servlet的生命周期
2013/08/25 面试题
医院志愿者活动总结
2015/05/06 职场文书
导游词之无锡丝业博物馆
2019/11/12 职场文书
详解Redis集群搭建的三种方式
2021/05/31 Redis
详解Mysq MVCC多版本的并发控制
2022/04/29 MySQL