PHP中文分词 自动获取关键词介绍


Posted in PHP onNovember 13, 2012
<?php 
header("Content-Type:text/html; charset=utf-8"); 
define('APP_ROOT', str_replace('\\', '/', dirname(__FILE__))); 
$test = '这里是一段中文测试代码!'; 
function get_tags_arr($title) 
{ 
require(APP_ROOT.'/pscws4.class.php'); 
$pscws = new PSCWS4(); 
$pscws->set_dict(APP_ROOT.'/scws/dict.utf8.xdb'); 
$pscws->set_rule(APP_ROOT.'/scws/rules.utf8.ini'); 
$pscws->set_ignore(true); 
$pscws->send_text($title); 
$words = $pscws->get_tops(5); 
$tags = array(); 
foreach ($words as $val) { 
$tags[] = $val['word']; 
} 
$pscws->close(); 
return $tags; 
} 
print_r(get_tags_arr($test)); 
//============================================================ 
function get_keywords_str($content){ 
require(APP_ROOT.'/phpanalysis.class.php'); 
PhpAnalysis::$loadInit = false; 
$pa = new PhpAnalysis('utf-8', 'utf-8', false); 
$pa->LoadDict(); 
$pa->SetSource($content); 
$pa->StartAnalysis( false ); 
$tags = $pa->GetFinallyResult(); 
return $tags; 
} 
print(get_keywords_str($test));

相关下载地址

SCWS ? 简易中文分词系统

SCWS 在概念上并无创新成分,采用的是自行采集的词频词典,并辅以一定程度上的专有名称、人名、地名、数字年代等规则集,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些中小型搜索引擎、关键字提取等场合运用。 SCWS 采用纯 C 代码开发,以 Unix-Like OS 为主要平台环境,提供共享函数库,方便植入各种现有软件系统。此外它支持 GBK,UTF-8,BIG5 等汉字编码,切词效率高。

系统平台:Windows/Unix
开发语言:C
使用方式:PHP扩展

演示网址:http://www.ftphp.com/scws/demo.php
开源官网:http://www.ftphp.com/scws/

晴枫附注:作为PHP扩展,容易与现有的基于PHP架构的Web系统继续集成,是其一大优势。

PhpanAlysis - PHP无组件分词系统

PhpanAlysis分词系统是基于字符串匹配的分词方法 ,这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配 和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。 

系统平台:PHP环境

开发语言:PHP

使用方式:HTTP服务

演示网址:http://www.itgrass.com/phpanalysis/
开源官网:http://www.itgrass.com/phpanalysis/

晴枫附注:实现简单,容易使用,能做一些简单应用,但大数据量的计算效率不如前几种。

试用了几个系统,基本分词功能都没什么问题,只是在个别一些词的划分上存在一些差异;对于词性的确定,系统间有所不同。

https://3water.com/codes/40139.html

PHP 相关文章推荐
PHP字符编码问题之GB2312 VS UTF-8解决方法
Jun 23 PHP
php中判断字符串是否全是中文或含有中文的实现代码
Sep 16 PHP
PHP实现下载断点续传的方法
Nov 12 PHP
php常用文件操作函数汇总
Nov 22 PHP
PHP中key和current,next的联合运用实例分析
Mar 29 PHP
PHP7标量类型declare用法实例分析
Sep 26 PHP
微信公众号OAuth2.0网页授权问题浅析
Jan 21 PHP
PHP网站自动化配置的实现方法(必看)
May 27 PHP
PHP SFTP实现上传下载功能
Jul 26 PHP
php微信开发之谷歌测距
Jun 14 PHP
php从数据库读取数据,并以json格式返回数据的方法
Aug 21 PHP
PHP单例模式数据库连接类与页面静态化实现方法
Mar 20 PHP
PHP gbk环境下json_dencode传送来的汉字
Nov 13 #PHP
PHP漏洞全解(详细介绍)
Nov 13 #PHP
thinkphp3.0 模板中函数的使用
Nov 13 #PHP
thinkPHP的Html模板标签使用方法
Nov 13 #PHP
PHP数组及条件,循环语句学习
Nov 11 #PHP
php对mongodb的扩展(初出茅庐)
Nov 11 #PHP
PHP面向对象——访问修饰符介绍
Nov 08 #PHP
You might like
用PHPdig打造属于你自己的Google[图文教程]
2007/02/14 PHP
使用php重新实现PHP脚本引擎内置函数
2007/03/06 PHP
如何使用FireFox插件FirePHP调试PHP
2013/07/23 PHP
Drupal7连接多个数据库及常见问题解决
2014/03/02 PHP
php实现将任意进制数转换成10进制的方法
2015/04/17 PHP
php使用for语句输出三角形的方法
2015/06/09 PHP
PHP微信API接口类
2016/08/22 PHP
PHP+MySQL使用mysql_num_rows实现模糊查询图书信息功能
2018/05/31 PHP
Thinkphp5 自定义上传文件名的实现方法
2019/07/23 PHP
PHP快速导出百万级数据到CSV或者EXCEL文件
2020/11/27 PHP
JavaScript 事件参考手册
2008/12/24 Javascript
js使下拉列表框可编辑不止是选择
2013/12/12 Javascript
js window.open弹出新的网页窗口
2014/01/16 Javascript
jquery表单对象属性过滤选择器实例分析
2015/05/18 Javascript
js实现a标签超链接提交form表单的方法
2015/06/24 Javascript
JavaScript中的事件委托及好处
2016/07/12 Javascript
Js遍历键值对形式对象或Map形式的方法
2016/08/08 Javascript
JavaScript中校验银行卡号的实现代码
2016/12/19 Javascript
JavaScript学习笔记之DOM基础操作实例小结
2019/01/09 Javascript
[02:25]DOTA2英雄基础教程 生死判决瘟疫法师
2013/12/06 DOTA
[05:02][DOTA2]DOTA进化论 第一期
2013/09/27 DOTA
python简单实例训练(21~30)
2017/11/15 Python
基于python历史天气采集的分析
2019/02/14 Python
Numpy对数组的操作:创建、变形(升降维等)、计算、取值、复制、分割、合并
2019/08/28 Python
python输出数学符号实例
2020/05/11 Python
python实现简单贪吃蛇游戏
2020/09/29 Python
5个你不知道的HTML5的接口介绍
2013/08/07 HTML / CSS
html5表单及新增的改良元素详解
2016/06/07 HTML / CSS
Zatchels官网:英国剑桥包品牌
2021/01/12 全球购物
化工专业个人的求职信范文
2013/11/28 职场文书
初中英语课后反思
2014/04/25 职场文书
歌颂党的演讲稿
2014/09/10 职场文书
教你用Python爬取英雄联盟皮肤原画
2021/06/13 Python
Android Flutter实现3D动画效果示例详解
2022/04/07 Java/Android
吉利入股戴姆勒后smart“长大了”
2022/04/21 数码科技
java获取一个文本文件的编码(格式)信息
2022/09/23 Java/Android