PHP中文分词 自动获取关键词介绍


Posted in PHP onNovember 13, 2012
<?php 
header("Content-Type:text/html; charset=utf-8"); 
define('APP_ROOT', str_replace('\\', '/', dirname(__FILE__))); 
$test = '这里是一段中文测试代码!'; 
function get_tags_arr($title) 
{ 
require(APP_ROOT.'/pscws4.class.php'); 
$pscws = new PSCWS4(); 
$pscws->set_dict(APP_ROOT.'/scws/dict.utf8.xdb'); 
$pscws->set_rule(APP_ROOT.'/scws/rules.utf8.ini'); 
$pscws->set_ignore(true); 
$pscws->send_text($title); 
$words = $pscws->get_tops(5); 
$tags = array(); 
foreach ($words as $val) { 
$tags[] = $val['word']; 
} 
$pscws->close(); 
return $tags; 
} 
print_r(get_tags_arr($test)); 
//============================================================ 
function get_keywords_str($content){ 
require(APP_ROOT.'/phpanalysis.class.php'); 
PhpAnalysis::$loadInit = false; 
$pa = new PhpAnalysis('utf-8', 'utf-8', false); 
$pa->LoadDict(); 
$pa->SetSource($content); 
$pa->StartAnalysis( false ); 
$tags = $pa->GetFinallyResult(); 
return $tags; 
} 
print(get_keywords_str($test));

相关下载地址

SCWS ? 简易中文分词系统

SCWS 在概念上并无创新成分,采用的是自行采集的词频词典,并辅以一定程度上的专有名称、人名、地名、数字年代等规则集,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些中小型搜索引擎、关键字提取等场合运用。 SCWS 采用纯 C 代码开发,以 Unix-Like OS 为主要平台环境,提供共享函数库,方便植入各种现有软件系统。此外它支持 GBK,UTF-8,BIG5 等汉字编码,切词效率高。

系统平台:Windows/Unix
开发语言:C
使用方式:PHP扩展

演示网址:http://www.ftphp.com/scws/demo.php
开源官网:http://www.ftphp.com/scws/

晴枫附注:作为PHP扩展,容易与现有的基于PHP架构的Web系统继续集成,是其一大优势。

PhpanAlysis - PHP无组件分词系统

PhpanAlysis分词系统是基于字符串匹配的分词方法 ,这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配 和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。 

系统平台:PHP环境

开发语言:PHP

使用方式:HTTP服务

演示网址:http://www.itgrass.com/phpanalysis/
开源官网:http://www.itgrass.com/phpanalysis/

晴枫附注:实现简单,容易使用,能做一些简单应用,但大数据量的计算效率不如前几种。

试用了几个系统,基本分词功能都没什么问题,只是在个别一些词的划分上存在一些差异;对于词性的确定,系统间有所不同。

https://3water.com/codes/40139.html

PHP 相关文章推荐
可定制的PHP缩略图生成程式(需要GD库支持)
Mar 06 PHP
php shell超强免杀、减少体积工具实现代码
Oct 16 PHP
PHP下使用CURL方式POST数据至API接口的代码
Feb 14 PHP
YII模块实现绑定二级域名的方法
Jul 09 PHP
为百度UE编辑器上传图片添加水印功能
Apr 16 PHP
分享五个PHP7性能优化提升技巧
Dec 07 PHP
PHP面向对象自动加载机制原理与用法分析
Oct 14 PHP
Laravel学习教程之request validation的编写
Oct 25 PHP
总结PHP中初始化空数组的最佳方法
Feb 13 PHP
thinkPHP5框架实现多数据库连接,跨数据连接查询操作示例
May 29 PHP
Laravel框架Blade模板简介及模板继承用法分析
Dec 03 PHP
php 使用ActiveMQ发送消息,与处理消息操作示例
Feb 23 PHP
PHP gbk环境下json_dencode传送来的汉字
Nov 13 #PHP
PHP漏洞全解(详细介绍)
Nov 13 #PHP
thinkphp3.0 模板中函数的使用
Nov 13 #PHP
thinkPHP的Html模板标签使用方法
Nov 13 #PHP
PHP数组及条件,循环语句学习
Nov 11 #PHP
php对mongodb的扩展(初出茅庐)
Nov 11 #PHP
PHP面向对象——访问修饰符介绍
Nov 08 #PHP
You might like
PHP简洁函数(PHP简单明了函数语法)
2012/06/10 PHP
sina的lightbox效果。
2007/01/09 Javascript
用js生产批量批处理执行命令
2008/07/28 Javascript
jQuery 常见学习网站与参考书
2009/11/09 Javascript
JS随机漂浮广告代码具体实例
2013/11/19 Javascript
Jquery实现的角色左右选择特效
2014/05/21 Javascript
JavaScript实现从数组中选出和等于固定值的n个数
2014/09/03 Javascript
深入理解JavaScript系列(31):设计模式之代理模式详解
2015/03/03 Javascript
jquery实现鼠标经过显示下划线的渐变下拉菜单效果代码
2015/08/24 Javascript
Bootstrap开发实战之第一次接触Bootstrap
2016/06/02 Javascript
浅析JSONP技术原理及实现
2016/06/08 Javascript
图文详解Javascript中的上下文和作用域
2017/02/15 Javascript
jQuery实现打开网页自动弹出遮罩层或点击弹出遮罩层功能示例
2017/10/19 jQuery
jquery轻量级数字动画插件countUp.js使用详解
2019/10/17 jQuery
详解微信小程序工程化探索之webpack实战
2020/04/20 Javascript
vue实现信息管理系统
2020/05/30 Javascript
[55:23]VGJ.T vs Winstrike 2018国际邀请赛小组赛BO2 第二场 8.17
2018/08/20 DOTA
python创建临时文件夹的方法
2015/07/06 Python
python实现中文分词FMM算法实例
2015/07/10 Python
Python文本相似性计算之编辑距离详解
2016/11/28 Python
Python 正则表达式入门(中级篇)
2016/12/07 Python
python3写爬取B站视频弹幕功能
2017/12/22 Python
PyCharm设置SSH远程调试的方法
2018/07/17 Python
Python restful框架接口开发实现
2020/04/13 Python
Python垃圾回收机制三种实现方法
2020/04/27 Python
matplotlib 画动态图以及plt.ion()和plt.ioff()的使用详解
2021/01/05 Python
美国百年历史早餐食品供应商:Wolferman’s
2017/01/18 全球购物
美国知名奢侈美容品牌零售商:Cos Bar
2017/04/21 全球购物
Nisbets法国:英国最大的厨房和餐饮设备供应商
2019/03/18 全球购物
医学生职业规划范文
2014/01/05 职场文书
学校法制宣传月活动总结
2014/07/03 职场文书
高中课前三分钟演讲稿
2014/08/18 职场文书
社会体育专业大学生职业生涯规划书
2014/09/17 职场文书
2014年信息技术工作总结
2014/12/16 职场文书
爱护公物主题班会
2015/08/17 职场文书
python图像处理基本操作总结(PIL库、Matplotlib及Numpy)
2021/06/08 Python