python html5 bootstrap 视频教程
德云社区 门户 行业资讯 行业标准 IT 标准 查看内容

Coreseek ── 基于 SQL 的中文全文检索引擎

2015-1-7 13:16| 发布者: digitser| 查看: 1405| 评论: 2|原作者: gmail

摘要: Coreseek ── 基于 SQL 的中文全文检索引擎 Coreseek 是一款可供企业使用的中文全文 “检索/搜索” 软件,以 GPL2 许可协议开源发布;基于 Sphinx 研发并独立发布,专攻中文搜索和信息处理领域。适用于行业/垂直搜 ...
数字 IDE 网页 ── 所见即所得编写 HTML4、HTML5 静态-动态网站,生成 Robots、站点地图,死链检测,强大文本编辑器功能。。。集成中英自动 TTS 文本诵读功能。。。
数字 IDE Python ── 支持编写 Python、Django、HTML5、XML、C/C++、Java、Perl、PHP、Ruby、C#、VB .Net 等程序源代码。。。集成了很多常用编程智能辅助工具。。。
业务范围:
01、企业 \"内部 | 外部\" 数据管理、分析、挖据
02、企业效率优化专用 APP 程序定制、IT 外包
03、智能数字化系统平台架设、开发、部署、维护
04、高仿真、低成本,可动画-可 VR 数字样机建模、开发、规划
05、企业 Linux 云计算 \"IaaS | SaaS\" 服务器架设、开发、部署、维护
06、\"标准 | 非标\" 设备全流程研发,PLC、单片机、工控系统开发、集成
07、企业 Linux / Windows 平台 PLM、ERP 系统架设、开发、部署、维护
08、企业 Linux / Windows 平台 \"内网 | 外网\" 服务器架设、开发、部署、维护
09、企业微信公众号智能互动营销、策划,Web 网站代码、SEO 排名优化,大数据网络推广
10、企业跨平台、跨硬件、跨浏览器 HTML5 Web 电子商务平台、\"静态 | 动态\" 网站开发、部署、维护
11、企业文档、资料、公司网页多语种翻译,数据资料标准化、版本化、数字化管理的规划、研发、实施
数字翻译 ── 能批量翻译文档 GUI 用户界面。。。网页浏览 批处理 全文搜索 全文替换 全文删除 全文插入 数据比较 。。。集成中英自动 TTS 文本诵读功能。。。
AI人工智能 语音助理 人工翻译 教程

Coreseek 是一款可供企业使用的中文全文 “检索/搜索” 软件,以 GPL2 许可协议开源发布;基于 Sphinx 研发并独立发布,专攻中文搜索和信息处理领域。适用于行业/垂直搜索、论坛/站内搜索、数据库搜索、文档/文献检索、信息检索、数据挖掘等应用场景,可以免费下载使用。商业使用(譬如:嵌入到其他程序中)需要获得商业授权。


SphinxSQL Phrase Index 的缩写,但不幸的是和 CMUSphinx 项目重名。


Coreseek 的意图:为其他应用提供高速、低空间占用、高相关度结果的中文全文搜索能力。CoreSeek 可以非常容易的与 SQL 数据库和脚本语言集成。


应用程序可通过 3 种不同接口方式与 Sphinx 搜索服务 (searchd) 通信:

1、通过原生搜索 API (SphinxAPI);


2、通过 Sphinx 自身支持的 MySQL 网络协议 (使用命名为 SphinxQLSQL 精简子集);


3、通过 MySQL 服务端存储插件引擎 (SphinxSE);


当然, 还可通过使用 1、2、3 的应用程序构建 Web Service 为其他应用程序提供通信。


Sphinx 发行版提供的原生搜索 API 支持 PHPPythonPerlRudyJava。搜索 API 非常轻量化,可在几个小时内移植到新语言上。第三方 API 接口和插件提供了对 PerlC#HaskellRuby-on-Rails 的支持,以及对其他可能的语言或者框架的支持。


从版本 1.10-beta 起,Sphinx 开始支持 2 种不同的索引后端:“磁盘(disk)” 索引后端和 “实时索引(realtime)”(RT)索引后端。磁盘索引支持在线全文索引重建,但是仅支持非文本(属性)数据的在线更新。RT 实时索引在此基础上,又增加了在线的全文索引更新。在此之前的版本仅支持磁盘索引。


使用命名为数据源的接口,数据可以被加载到磁盘索引。当前系统内置 MySQLPostgreSQL 以及 ODBC 兼容(MS SQLOracle 等) 数据库数据源的支持,也支持从管道标准输入读取特定格式的 XML 数据。通过适当修改源代码,用户可以自行增加新的数据源驱动(譬如:对其他类型的 DBMS的原生支持)。在 Coreseek 发行版中,用户还可使用 Python 脚本作为数据源来获取任何已知世界和未知世界的数据,这极大的扩展了数据源的来源。从 1.10-beta 版本开始的 RT 实时索引,只能使用 MySQL 接口通过 SphinxQL 来操作。

001.gif
特性

01、优异的索引、搜索性能;


02、先进的索引、查询工具 (灵活且功能丰富的文本分析器、查询语言、及各种不同排序方式、等等);


03、先进的结果集分析处理 (SELECT 可以使用表达式;譬如:WHEREORDER BYGROUP BY 等,对全文搜索结果集进行过滤);


04、实践证实可扩展性支持数 10 亿文档记录,TB 级别的数据,以及每秒数千次查询;


05、易于集成 SQLXML 数据源,并可使用 SphinxAPISphinxQL 或者 SphinxSE 搜索接口;


06、易于通过分布式搜索进行扩展;


07、高速索引建立 (峰值性能可达到 10 ~ 15 MB/秒);


08、高性能搜索 (在 1.2 G 文本、100 万条文档上进行搜索,支持高达每秒 150~250 次查询);


09、高扩展性 (最大索引集群可超过 30 亿条文档,最繁忙时刻的查询峰值可达到每天 5 千万次);


10、提供了优秀的相关度算法,基于短语相似度和统计(BM 25)的复合 Ranking 方法;


11、支持分布式搜索功能;


12、提供文档片段(摘要以及高亮)生成功能;

002..jpg

13、内建支持 SphinxAPISphinxQL 搜索接口,也可作为 MySQL 的存储引擎提供搜索服务;


14、支持布尔、短语、词语相似度、等多种检索模式;


15、文档支持多个全文检索字段 (缺省配置下,最大不超过 32 个);


16、文档支持多个额外属性信息 (譬如:分组信息、时间戳、等);


17、支持查询停止词


18、支持词形学处理;


19、支持特殊词汇处理;


20、支持单一字节编码、UTF-8 编码;


21、内建支持英语俄语捷克语词干化处理;对法语西班牙语葡萄牙语意大利语罗马尼亚语德国荷兰瑞典挪威丹麦芬兰匈牙利等语言的支持可通过第三方的  libstemmer 库扩展);


22、原生 MySQL 支持 (同时支持 MyISAMInnoDBNDBArchive、等所有类型的数据表 );


23、原生 PostgreSQL 支持;


24、原生 ODBC 兼容数据库支持 (譬如:MS SQLOracle、等);


版权声明:
本文为独家原创稿件,版权归 德云社区,未经许可不得转载;否则,将追究其法律责任。


路过

雷人

握手

鲜花

鸡蛋

相关阅读

发表评论

最新评论

引用 gmail 2015-1-3 03:19
Coreseek, Sphinx, MySQL, MariaDB, Ubuntu Server

引用 gmail 2015-1-3 03:19
Coreseek, Sphinx, MySQL, MariaDB, Ubuntu Server

查看全部评论(2)

自动立式分页纸箱赋码系统 ── 全自动 专业 立式分页 瓦楞纸 水性油墨 贴标 喷码 检测系统
料斗式自动双头软管贴标机 ── 高速 双头 塑料软管 普通标签 透明标签 外表面圆周 不干胶贴标机
全自动双侧面、卷瓶不干胶贴标机 ── 全自动 扁瓶 单侧面 双侧面 高速圆瓶外表面圆周 普通标签 透明标签 不干胶贴标机
落地式半自动平面贴标机 ── 半自动 经济型 普通标签 透明标签 不干胶 上平面贴标机
全自动高速立式圆瓶贴标机 ── 全自动 高速 普通标签 透明标签 不干胶 立式圆瓶贴标机
全自动单料斗卧式圆瓶贴标机 ── 透明标签 普通标签 医药 口服液 单料斗卧式 高重心 小圆瓶 电池 不干胶贴标机
料斗式自动双头软管贴标机 ── 高速 双头 塑料软管 普通标签 透明标签 外表面圆周 不干胶贴标机
料斗式自动软管贴标机 ── 塑料软管 普通标签 透明标签 外表面圆周 不干胶贴标机

Archiver|Sitemap|手机版|小黑屋|   

GMT+8, 2019-8-19 08:29 , Processed in 0.035473 second(s), 30 queries .

技术支持 乐数软件  版权所有 © 2014-2019 德云社区

工业和信息化部:粤ICP备14079481号-2

返回顶部