德云社区 › 门户 ›智控系统› 人工智能› 人工智能工具 & 软件 › 查看内容

服务器端 Java C/C++ Python 开源全文搜索全文检索引擎汇总一览

2016-10-18 00:56| 发布者: digitser| 查看: 5402| 评论: 0|原作者: money

摘要: 服务器端 Java C/C++ Python 开源全文搜索全文检索引擎汇总一览 01、LuceneLucene 是当前以及最近几年最受欢迎的免费 Java 信息检索程序库。 Lucene 是 Apache 软件基金会 4 jakarta 项目组的一个子项目，是一个开 ...

自动立式分页纸箱赋码系统 ── 全自动专业立式分页瓦楞纸水性油墨贴标喷码检测系统

服务器端 Java C/C++ Python 开源全文搜索全文检索引擎汇总一览

01、Lucene

Lucene 是当前以及最近几年最受欢迎的免费 Java 信息检索程序库。

Lucene 是 Apache 软件基金会 4 jakarta 项目组的一个子项目，是一个开放源代码的全文搜索引擎工具包。Lucene 开发语言为 Java，是 Java 家族中最为出名的一个服务器端开源全文搜索引擎。Lucene 在 Java 语言世界已是标准全文检索程序，它提供了完整的查询引擎和索引引擎，但没有中文分词引擎，需自己实现；因此，用 Lucene 做搜素引擎需自己架构。

Lucene 不是一个完整全文检索引擎，而是一个全文检索引擎架构，它提供了完整的查询引擎和索引引擎，部分文本分析引擎 (英文与德文两种西方语言)。Lucene 的目的是为软件开发人员提供一个简易工具包，以便在目标系统中实现全文检索功能，或是以此为基础建立起完整的全文检索引擎。

Lucene 不支持实时搜索，但 linkedin 和 twitter 有分别对 Lucene 改进的实时搜索。

Lucene 有一个 C++ 移植版本叫 CLucene，CLucene 因用 C++ 编写, 所以理论上要比 Lucene 快。

10 倍以上效率提升极速智能编辑重构 "数字化 Python IDE" 开发工具

http://idepy.digitser.cn/

http://forum.digitser.cn/thread-2266-1-1.html

百度网盘

https://pan.baidu.com/s/1cKxajG

软件仓库

https://github.com/digitser

https://digitser.sourceforge.io/

https://pan.baidu.com/s/1TV70__Be1ta0ney1-tudFQ

http://lucene.apache.org/

http://sourceforge.net/projects/clucene/

02、Sphinx

Sphinx 是一个由俄国人开发的搜索引擎，Sphinx 建索引速度是最快的，比 Lucene 快 9 倍以上。因此，Sphinx 非常适合做准实时搜索引擎。

Sphinx 是一个用 C++ 语言编写的，基于 SQL 的开源全文搜索引擎。Sphinx 可结合 MySQL、PostgreSQL 做全文搜索，它能提供比数据库本身更专业的搜索功能，使得应用程序更容易实现专业化全文检索。

Sphinx 特别为一些脚本语言设计了搜索 API 接口，譬如：PHP、Python、Perl、Ruby 等，同时为 MySQL 也设计了一个存储引擎插件。

Sphinx 单一索引最大可包含1亿条记录，在1千万条记录下的查询速度为0.x秒（毫秒级）。Sphinx 创建索引的速度为：创建 100 万条记录的索引只需 3～4 分钟，创建 1000 万条记录的索引可以在 50 分钟内完成，而只包含最新10万条记录的增量索引，重建一次只需几十秒。

Lucene 出自名门，子孙兴旺，且其兄弟 Hadoop 风头正盛，所以名气很大。而 sphinx 因为简单可靠，代码结构优良，性能非常好，在国内大型网站中使用最广。

http://sphinxsearch.com/about/sphinx/

03、Xapian

Xapian 是一个用 C++ 编写的全文检索程序，它的 API 和检索原理和 lucene 在很多方面都很相似，但也有一些不同，算是填补了 lucene 在 C++ 中的一个空缺。

尽管在 Java 世界 lucene 已是标准全文检索程序，在 C/C++ 世界中虽然有一个 lucene 版本 clucene，但在业界却是一个饱受争议的使用 (毕竟是通过修改 Java 的代码改编而来的)。

Xapian 除提供原生 C/C++ 编程接口外，还提供 Perl、PHP、Python 和 Ruby 编程接口、类库。

http://xapian.org/

04、Solr

Solr 是 Apache Lucene 项目的开源企业搜索平台。其主要功能包括全文检索、命中标示、分面搜索、动态聚类、数据库集成，以及富文本（如Word、PDF）的处理。Solr 是高度可扩展的，并提供了分布式搜索和索引复制。Solr 是最流行的企业级搜索引擎，Solr4 还增加了 NoSQL 支持。

Solr 是用 Java 编写、运行在 Servlet 容器（如 Apache Tomcat 或 Jetty）的一个独立全文搜索服务器。 Solr 采用 Lucene Java 搜索库为核心的全文索引和搜索，并具有类似 REST 的 HTTP/XML 和 JSON 的 API。Solr 强大的外部配置功能使得无需进行 Java 编码，便可对其进行调整以适应多种类型的应用程序。Solr 有一个插件架构，以支持更多的高级定制。

用户可通过 http 请求，向搜索引擎服务器提交一定格式的 XML 文件，生成索引；也可通过 Http Get 操作提出查找请求，并得到 XML 格式的返回结果。

因为 2010 年 Apache Lucene 和 Apache Solr 项目合并，两个项目是由同一个 Apache 软件基金会开发团队制作实现的。提到技术或产品时，Lucene/Solr 或 Solr/Lucene 是一样的。

Solr 支持添加多种格式的索引，如：HTML、PDF、微软 Office 系列软件格式以及 JSON、XML、CSV 等纯文本格式。

http://lucene.apache.org/solr/

05、Elasticsearch

Elasticsearch 是一个采用 java 语言开发的, 基于 Lucene 架构的开源、分布式搜索引擎。可扩展到上百台服务器，处理 PB 级别的结构化或非结构化数据。Elasticsearch 设计用于云计算中，支持实时搜索，稳定可靠。Elasticsearch 数据模型为 JSON。

Elasticsearch 是一个实时分布式搜索和分析引擎。Elasticsearch 可帮你用前所未有的速度去处理大规模数据。Elasticsearch 可以用于全文搜索，结构化搜索及分析，当然也可以将这三者进行组合。Elasticsearch 是一个建立在全文搜索引擎 Apache Lucene 基础上的搜索引擎，Lucene 是当今最先进，最高效的全功能开源搜索引擎框架。

但 Lucene 只是一个框架，要充分利用它，需要使用 JAVA，并在程序中集成 Lucene。需要很多的学习了解，才能明白它是如何运行的，Lucene 确实非常复杂。Elasticsearch 使用 Lucene 作为内部引擎，但是在使用它做全文搜索时，只需要使用统一开发好的 API 即可，而不需要了解其背后复杂的 Lucene 运行原理。

Elasticsearch 并不只是面向大型企业的，它还帮助了很多类似 DataDog 以及 Klout 的创业公司进行功能扩展。

维基百科使用 Elasticsearch 来进行全文搜做并高亮显示关键词，及提供 search-as-you-type、did-you-mean 等搜索建议功能。

英国卫报使用 Elasticsearch 处理访客日志，以便将公众对不同文章的反应实时地反馈给各位编辑。

StackOverflow 将全文搜索与地理位置和相关信息进行结合，以提供 more-like-this 相关问题的展现。

GitHub 使用 Elasticsearch 来检索超过 1300 亿行代码。

Goldman Sachs 使用它来处理 5TB 数据的索引，还有很多投行使用它来分析股票市场的变动。

http://www.elasticsearch.org/

06、Nutch

Nutch是一个用 java 实现的开源 web 搜索引擎, 包括爬虫 crawler、索引引擎、查询引擎。Nutch 基于 Lucene，Lucene 为 Nutch 提供了文本索引和搜索 API。

对于应使用 Lucene 还是使用 Nutch，若你不需要抓取数据，则应使用 Lucene。

常见的应用场合是：你有数据源，需要为这些数据提供一个搜索页面。在这种情况下，最好的方式是直接从数据库中取出数据并用 Lucene API 建立索引。

在你没有本地数据源，或者数据源非常分散的情况下，应该使用 Nutch。

http://nutch.apache.org/

07、DataparkSearch

DataparkSearch 是一个用 C 语言实现的开源搜索引擎，网页排序采用神经网络模型。

DataparkSearch 支持 HTTP、HTTPS、FTP、NNTP 等下载网页。包括索引引擎、检索引擎和中文分词引擎 (这也是唯一一个开源搜索引擎中，有中文分词的引擎)。

http://www.dataparksearch.org/

08、Zettair

Zettair 是根据 Justin Zobel 的研究成果为基础的全文检索实验系统，Zettair 是用 C 语言实现的。

Justin Zobel 在全文检索领域很有名气，是业界第一个系统提出倒排序索引差分压缩算法的人，倒排列表的压缩大大提高了检索和加载的性能，同时，空间膨胀率也缩小到相当优秀的水平。由于 Zettair 是源于学术界，代码由 RMIT University 的搜索引擎组织编写；因此，它的代码简洁精炼、算法高效, 是学习倒排索引经典算法的非常好的实例。

Zettair 是一个基于倒排序索引结构的全文搜索开源引擎，由 RMIT 墨尔本皇家理工大学开源实现。搜索引擎通常都是建立在一个特殊结构之上，称之为倒排序索引，这样可以快速响应查询。但是这样对于查询存在两个缺点。第一个，倒排序索引必须在查找之前建立好，第二，索引结构需要额外的电脑硬盘空间。但是上面的问题都是可以被忽略的，因为如果索引一天被用到成千上百次，从无数的文档中来查找你所有需要的信息，这也是值得的。

Zettair 基于 C 语言编写，无论是在 CPU、内存、还是在索引结构存储消耗空间，还是查询时间消耗，性能指标都是较为出色的。Zettair 同时支持增量索引, 结果摘要, 文件类型选择, 词根替换, 结果排序, 排序策略, 搜索类型,，基于小数据集（TREC-4）和大数据集(WT10g)。

Zettair 支持 Linux、windows、mac os 等系统。

http://www.seg.rmit.edu.au/zettair/about.html

09、Indri

Indri 是一个用 C 语言和 C++ 语言编写的开源全文检索引擎系统，由 University of Massachusetts 和 Carnegie Mellon University 卡耐基－梅隆大学 Lemur 项目组维护并持续开发API 接口支持 Java, PHP, C++。

尽管 Indri 只是 Lemur 信息获取工具系列的一部分，然而由于其使用最新的语言模型，高效的索引技术，完整的搜索引擎解决方案，不乏为搜索相关专业及爱好者研究之典范。

Indri 支持结构化查询语言 INQUERY；支持 PDF，HTML，XML，TREC 格式文档以及 Windows 下的 Word 和 PPT 格式文档的索引。支持 T 量级数据的分式处理。最新版本的 Indri 支持高效动态文档索引，允许在更新索引的同时接受查询，并号称具有 15G/小时的索引性能。

http://www.lemurproject.org/indri/

10、Terrier

Terrier 是由 School of Computing Science, Universityof Glasgow 用 java 开发的一个开源全文检索系统。

Terrier 在 IR 领域非常有影响力，Terrier 具有高效灵活及易于部署等特点，目前最新的版本为 Terrier 4.1。

Terrier 的整个工作过程，需先建立索引，然后根据自定义的 query phrases (查询短语，当然也可以是句子)，在已建立的索引上查询，并返回结果。

http://terrier.org/

11、Galago

Galago 是一个用 java 语言写的文本搜索工具集。包括索引引擎、查询引擎, 还包括一个叫 TupleFlow 的分布式计算框架 (和 google 的 MapReduce 很像)。

Galago 检索系统支持很多 Indri 查询语言。

http://www.lemurproject.org/galago.php

12、Zebra

Zebra 是一个用 C 语言实现的检索程序，特点是对大数据的支持, 支持 EMAIL, XML, MARC 等格式的数据。