python html5 bootstrap 视频教程
德云社区 门户 行业资讯 行业标准 IT 标准 查看内容

Coreseek ── 基于 SQL 的中文全文检索引擎

2015-1-7 13:16| 发布者: digitser| 查看: 2335| 评论: 2|原作者: gmail

摘要: Coreseek ── 基于 SQL 的中文全文检索引擎 Coreseek 是一款可供企业使用的中文全文 “检索/搜索” 软件,以 GPL2 许可协议开源发布;基于 Sphinx 研发并独立发布,专攻中文搜索和信息处理领域。适用于行业/垂直搜 ...
自动立式分页纸箱赋码系统 ── 全自动 专业 立式分页 瓦楞纸 水性油墨 贴标 喷码 检测系统

Coreseek 是一款可供企业使用的中文全文 “检索/搜索” 软件,以 GPL2 许可协议开源发布;基于 Sphinx 研发并独立发布,专攻中文搜索和信息处理领域。适用于行业/垂直搜索、论坛/站内搜索、数据库搜索、文档/文献检索、信息检索、数据挖掘等应用场景,可以免费下载使用。商业使用(譬如:嵌入到其他程序中)需要获得商业授权。


SphinxSQL Phrase Index 的缩写,但不幸的是和 CMUSphinx 项目重名。


Coreseek 的意图:为其他应用提供高速、低空间占用、高相关度结果的中文全文搜索能力。CoreSeek 可以非常容易的与 SQL 数据库和脚本语言集成。


应用程序可通过 3 种不同接口方式与 Sphinx 搜索服务 (searchd) 通信:

1、通过原生搜索 API (SphinxAPI);


2、通过 Sphinx 自身支持的 MySQL 网络协议 (使用命名为 SphinxQLSQL 精简子集);


3、通过 MySQL 服务端存储插件引擎 (SphinxSE);


当然, 还可通过使用 1、2、3 的应用程序构建 Web Service 为其他应用程序提供通信。


Sphinx 发行版提供的原生搜索 API 支持 PHPPythonPerlRudyJava。搜索 API 非常轻量化,可在几个小时内移植到新语言上。第三方 API 接口和插件提供了对 PerlC#HaskellRuby-on-Rails 的支持,以及对其他可能的语言或者框架的支持。


从版本 1.10-beta 起,Sphinx 开始支持 2 种不同的索引后端:“磁盘(disk)” 索引后端和 “实时索引(realtime)”(RT)索引后端。磁盘索引支持在线全文索引重建,但是仅支持非文本(属性)数据的在线更新。RT 实时索引在此基础上,又增加了在线的全文索引更新。在此之前的版本仅支持磁盘索引。


使用命名为数据源的接口,数据可以被加载到磁盘索引。当前系统内置 MySQLPostgreSQL 以及 ODBC 兼容(MS SQLOracle 等) 数据库数据源的支持,也支持从管道标准输入读取特定格式的 XML 数据。通过适当修改源代码,用户可以自行增加新的数据源驱动(譬如:对其他类型的 DBMS的原生支持)。在 Coreseek 发行版中,用户还可使用 Python 脚本作为数据源来获取任何已知世界和未知世界的数据,这极大的扩展了数据源的来源。从 1.10-beta 版本开始的 RT 实时索引,只能使用 MySQL 接口通过 SphinxQL 来操作。

001.gif
特性

01、优异的索引、搜索性能;


02、先进的索引、查询工具 (灵活且功能丰富的文本分析器、查询语言、及各种不同排序方式、等等);


03、先进的结果集分析处理 (SELECT 可以使用表达式;譬如:WHEREORDER BYGROUP BY 等,对全文搜索结果集进行过滤);


04、实践证实可扩展性支持数 10 亿文档记录,TB 级别的数据,以及每秒数千次查询;


05、易于集成 SQLXML 数据源,并可使用 SphinxAPISphinxQL 或者 SphinxSE 搜索接口;


06、易于通过分布式搜索进行扩展;


07、高速索引建立 (峰值性能可达到 10 ~ 15 MB/秒);


08、高性能搜索 (在 1.2 G 文本、100 万条文档上进行搜索,支持高达每秒 150~250 次查询);


09、高扩展性 (最大索引集群可超过 30 亿条文档,最繁忙时刻的查询峰值可达到每天 5 千万次);


10、提供了优秀的相关度算法,基于短语相似度和统计(BM 25)的复合 Ranking 方法;


11、支持分布式搜索功能;


12、提供文档片段(摘要以及高亮)生成功能;

002..jpg

13、内建支持 SphinxAPISphinxQL 搜索接口,也可作为 MySQL 的存储引擎提供搜索服务;


14、支持布尔、短语、词语相似度、等多种检索模式;


15、文档支持多个全文检索字段 (缺省配置下,最大不超过 32 个);


16、文档支持多个额外属性信息 (譬如:分组信息、时间戳、等);


17、支持查询停止词


18、支持词形学处理;


19、支持特殊词汇处理;


20、支持单一字节编码、UTF-8 编码;


21、内建支持英语俄语捷克语词干化处理;对法语西班牙语葡萄牙语意大利语罗马尼亚语德国荷兰瑞典挪威丹麦芬兰匈牙利等语言的支持可通过第三方的  libstemmer 库扩展);


22、原生 MySQL 支持 (同时支持 MyISAMInnoDBNDBArchive、等所有类型的数据表 );


23、原生 PostgreSQL 支持;


24、原生 ODBC 兼容数据库支持 (譬如:MS SQLOracle、等);


版权声明:
本文为独家原创稿件,版权归 德云社区,未经许可不得转载;否则,将追究其法律责任。


路过

雷人

握手

鲜花

鸡蛋
AI人工智能 语音助理 人工翻译 教程

相关阅读

发表评论

最新评论

引用 gmail 2015-1-3 03:19
Coreseek, Sphinx, MySQL, MariaDB, Ubuntu Server

引用 gmail 2015-1-3 03:19
Coreseek, Sphinx, MySQL, MariaDB, Ubuntu Server

查看全部评论(2)

CSS3 官方中文文档编制 手册教程 人工翻译 更新日志
CSS3 官方中文文档编制 手册教程 人工翻译 更新日志 CSS3 中文文档编制采用机器辅助 + 全人工翻译,完全采用 数字翻译 的文档翻译流程进行汉化 (未采用任何第 3 方工具),[905/2022-07-31]
CSS3 官方中文文档编制 手册教程 帮助文件 人工翻译
CSS3 官方中文文档编制 手册教程 帮助文件 人工翻译 CSS3 中文文档编制采用机器辅助 + 全人工翻译,完全采用 数字翻译 的文档翻译流程进行汉化 (未采用任何第 3 方工具),[1013/2022-07-31]
SolidWorks 2020 非对称Conic Rho圆角 抽壳出现模型穿刺
SolidWorks 2020 非对称Conic Rho圆角 抽壳出现模型穿刺 标准对称圆角最常用,但有时偶尔也会用到非对称圆角。 特别是模具、五金、电子、手饰、汽车、家具、玩具、等对圆[889/2022-05-25]
NumPy 1.22 官方中文文档编制 手册帮助 更新日志
NumPy 1.22 官方中文文档编制 手册帮助 更新日志 以后不再上传 en-US 官方原版文档编制,目前上传的最新 zh-CN 人工翻译版本为 NumPy 1.22。 NumPy 1.22 中文文档编制采用[580/2022-05-22]
NumPy 1.22 官方中文文档编制 手册帮助 全人工翻译
NumPy 1.22 官方中文文档编制 手册帮助 全人工翻译 以后不再上传 en-US 官方原版文档编制,目前上传的最新 zh-CN 人工翻译版本为 NumPy 1.22。 NumPy 1.22 中文文档编制采[656/2022-05-22]
Pillow 9.1.1 官方中文文档编制 手册帮助 更新日志
Pillow 9.1.1 官方中文文档编制 手册帮助 更新日志 以后不再上传 en-US 官方原版文档编制,目前上传的最新 zh-CN 人工翻译版本为 Pillow 9.1.1。 Pillow 9.1.1 中文文档编[624/2022-05-22]
Pillow 9.1.1 官方中文文档编制 手册帮助 全人工翻译
Pillow 9.1.1 官方中文文档编制 手册帮助 全人工翻译 以后不再上传 en-US 官方原版文档编制,目前上传的最新 zh-CN 人工翻译版本为 Pillow 9.1.1。 Pillow 9.1.1 中文文档[577/2022-05-22]
PyMuPDF 1.19.6 官方中文文档编制 手册帮助 更新日志
PyMuPDF 1.19.6 官方中文文档编制 手册帮助 更新日志 以后不再上传 en-US 官方原版文档编制,目前上传的最新 zh-CN 人工翻译版本为 PyMuPDF 1.19.6。 PyMuPDF 1.19.6 中文[1160/2022-05-22]
PyMuPDF 1.19.6 官方中文文档编制 手册帮助 全人工翻译
PyMuPDF 1.19.6 官方中文文档编制 手册帮助 全人工翻译 以后不再上传 en-US 官方原版文档编制,目前上传的最新 zh-CN 人工翻译版本为 PyMuPDF 1.19.6。 PyMuPDF 1.19.6 中[993/2022-05-22]
Qt 6.3.0 官方中文文档编制 手册教程 帮助文件 人工翻译
Qt 6.3.0 官方中文文档编制 手册教程 帮助文件 人工翻译 以后不再上传 en-US 官方原版文档编制,目前上传的最新 zh-CN 人工翻译版本为 Qt 6.3.0。 Qt 6.3.0 中文文档编制[2443/2022-05-02]
Qt 6.3.0 官方中文文档编制 手册教程 人工翻译更新日志
Qt 6.3.0 官方中文文档编制 手册教程 人工翻译更新日志 以后不再上传 en-US 官方原版文档编制,目前上传的最新 zh-CN 人工翻译版本为 Qt 6.3.0。 Qt 6.3.0 中文文档编制采[2028/2022-05-02]
MAGIX Music Maker Premium - 易学易用 功能强大的可视化编曲软件
MAGIX Music Maker Premium - 易学易用 功能强大的可视化编曲软件 MAGIX Music Maker 是德国 Magix 出品的可视化编曲软件,功能强大、使用简单、容易上手。 MAGIX Music Ma[1737/2022-04-11]
MQTT - 消息队列遥测技术 M2M机器到机器 IoT物联网 通信协议
MQTT - 消息队列遥测技术 M2M机器到机器 IoT物联网 通信协议 MQTT 是 Message Queuing Telemetry Transport 的缩写,中文译为消息队列遥测传输。 MQTT 是 ISO 标准 (ISO/I[615/2022-02-24]
数字 Python IDE 2022 注册机 注册码生成器 附详细破解方法
数字 Python IDE 2022 注册机 注册码生成器 附详细破解方法 数字 Python IDE 目前还在不断研发 进步中,虽不太成熟,但其新理念很有特色 特别适于多版本 多文档 多工程并行[679/2022-02-01]
数字翻译 2022 注册机 注册码生成器 内存破解器 附详细用法
数字翻译 2022 注册机 注册码生成器 内存破解器 附详细用法 数字翻译目前还在不断研发 进步中,虽不太成熟,但其新理念很有特色 特别适于 HTML 文档本地化 (面向高精度 超[633/2022-02-01]

Archiver|Sitemap|小黑屋|德云社区   

GMT+8, 2024-4-26 00:48 , Processed in 0.047099 second(s), 29 queries .

工业和信息化部: 粤ICP备14079481号-2

技术支持 乐数软件     版权所有 © 2014-2021 德云社区    

返回顶部