浅谈Coreseek、Sphinx-for-chinaese、Sphinx+Scws的区别


Posted in PHP onDecember 15, 2016

Sphinx是一个基于SQL的全文检索引擎;普遍使用于很多网站

Sphinx的特性如下:

a)  高速的建立索引(在当代CPU上,峰值性能可达到10 MB/秒);

b)  高性能的搜索(在2 ? 4GB 的文本数据上,平均每次检索响应时间小于0.1秒);

c)  可处理海量数据(目前已知可以处理超过100 GB的文本数据, 在单一CPU的系统上可处理100 M 文档);

Sphinx本身对中文的支持并不好。

主要体现在对一段话断词;英文只需按照空格对其分词即可;但对于博大精深的中文来说,却是件困难的事情。

分词在两个地方会用到;

1、索引时,根据分词索引原始数据

2、搜索时,对用户输入分词,到索引中查询

目前最常用的三种方案Coreseek、Sphinx-for-chinaese、Sphinx+Scws

1、Coreseek 为国人基于Sphinx开发的方案,目前最稳定版,是基于经典的Sphinx0.9.9版

优点:有成熟的文档、以及社区;其分词mmseg为目前国内最为好用分词,索引和搜索分词都可以用到;

缺点:深度开发、版本更新较慢;索引较慢

策略:一个词库管理后台,维护词库;定期生成字典;此套件会自动分词索引;

适用场景:普通青年、搭建差不多的搜索,适用于普遍网站

2、Sphinx-for-chinaese 为国人2基于经典的Sphinx0.9.9版开发的扩展版

优点:部署简单,易操作,内嵌分词和词库,索引和搜索分词都可以用到;

缺点:版本更新较慢;分词较弱;索引相对较慢

策略:同一

适用场景:普通青年、快速搭建搜索的小站

3、Sphinx+Scws 为两套独立系统,单独部署,所谓高内聚低耦合,强烈推荐

优点:两套系统,相对独立,各自单独Server;分词可以做其他用途;版本更新较快;

缺点:部署稍复杂,使用稍复杂;索引分词只能用一元分词,数据量较大

策略:词库管理外;使用时,先调用分词服务,后调用搜索

适用场景:文艺青年、搭建像样点的搜索;好吧文艺青年

以上这篇浅谈Coreseek、Sphinx-for-chinaese、Sphinx+Scws的区别就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

PHP 相关文章推荐
防止本地用户用fsockopen DDOS攻击对策
Nov 02 PHP
php自动注册登录验证机制实现代码
Dec 20 PHP
PHP 设计模式之观察者模式介绍
Feb 22 PHP
php中的mongodb select常用操作代码示例
Sep 06 PHP
PHP访问Google Search API的方法
Mar 05 PHP
PHP CURL与java http使用方法详解
Jan 26 PHP
thinkphp3.2.0 setInc方法 源码全面解析
Jan 29 PHP
ThinkPHP5.0框架验证码功能实现方法【基于第三方扩展包】
Mar 11 PHP
php curl发送请求实例方法
Aug 01 PHP
PHP 文件写入和读取操作实例详解【必看篇】
Nov 04 PHP
php中yii框架实例用法
Dec 22 PHP
如何用RabbitMQ和Swoole实现一个异步任务系统
May 29 PHP
浅谈socket同步和异步、阻塞和非阻塞、I/O模型
Dec 15 #PHP
PHP接口并发测试的方法(推荐)
Dec 15 #PHP
浅谈PHP的反射机制
Dec 15 #PHP
php 三元运算符实例详细介绍
Dec 15 #PHP
PHP的CURL方法curl_setopt()函数案例介绍(抓取网页,POST数据)
Dec 14 #PHP
使用PHP下载CSS文件中的所有图片【几行代码即可实现】
Dec 14 #PHP
Thinkphp 中 distinct 的用法解析
Dec 14 #PHP
You might like
PHP+SQL 注入攻击的技术实现以及预防办法
2010/12/29 PHP
destoon会员注册提示“数据校验失败(2)”解决方法
2014/06/21 PHP
Laravel 中获取上一篇和下一篇数据
2015/07/27 PHP
php实现每日签到功能
2018/11/29 PHP
js数组的基本用法及数组根据下标(数值或字符)移除元素
2013/10/20 Javascript
JavaScript数组对象实现增加一个返回随机元素的方法
2015/07/27 Javascript
Bootstrap 3的box-sizing样式导致UEditor控件的图片无法正常缩放的解决方案
2016/09/15 Javascript
微信小程序实现顶部普通选项卡效果(非swiper)
2020/06/19 Javascript
jQuery实现的简单图片轮播效果完整示例
2018/02/08 jQuery
webpack 单独打包指定JS文件的方法
2018/02/22 Javascript
uni-app之APP和小程序微信授权方法
2019/05/09 Javascript
pageGroup.js实现分页功能
2019/07/27 Javascript
微信小程序实现点击图片放大预览
2019/10/21 Javascript
vue计算属性无法监听到数组内部变化的解决方案
2019/11/06 Javascript
VUE 实现动态给对象增加属性,并触发视图更新操作示例
2019/11/29 Javascript
jQuery+PHP+Ajax实现动态数字统计展示功能
2019/12/25 jQuery
vue中axios防止多次触发终止多次请求的示例代码(防抖)
2020/02/16 Javascript
[05:08]2014DOTA2国际邀请赛 Hao专访复仇的胜利很爽
2014/07/15 DOTA
Python中的面向对象编程详解(下)
2015/04/13 Python
使用Python求解最大公约数的实现方法
2015/08/20 Python
Python正则获取、过滤或者替换HTML标签的方法
2016/01/28 Python
详解 Python中LEGB和闭包及装饰器
2017/08/03 Python
python中多个装饰器的调用顺序详解
2019/07/16 Python
Python 中使用 PyMySQL模块操作数据库的方法
2019/11/10 Python
python3 正则表达式基础廖雪峰
2020/03/25 Python
使用python脚本自动生成K8S-YAML的方法示例
2020/07/12 Python
香港优质食材和美酒专门店:FoodWise
2017/09/01 全球购物
危爆物品安全大检查大整治工作方案
2014/05/03 职场文书
教师反腐倡廉演讲稿
2014/09/03 职场文书
大学生党校培训心得体会
2014/09/11 职场文书
走群众路线学习心得体会
2014/10/31 职场文书
2014年纠风工作总结
2014/12/08 职场文书
小学生毕业评语
2014/12/26 职场文书
大学生求职意向书
2015/05/11 职场文书
2015年国庆节标语大全
2015/07/30 职场文书
Vue Element-ui表单校验规则实现
2021/07/09 Vue.js