python html5 bootstrap 视频教程

FTS - Full Text Search 高精度实时 全文搜索引擎 检索 定位 查找

2018-5-23 19:58| 发布者: digitser| 查看: 2492| 评论: 0|原作者: Python

摘要: FTS - Full Text Search 高精度实时 全文搜索引擎 检索 定位 查找 FTS 是 Full Text Search 的缩写,中文译为全文搜索、全文检索。 全文检索 是指计算机索引程序通过扫描文章的每一个词,对每一个词建立一个索引,指 ...
自动立式分页纸箱赋码系统 ── 全自动 专业 立式分页 瓦楞纸 水性油墨 贴标 喷码 检测系统
FTS - Full Text Search 高精度实时 全文搜索引擎 检索 定位 查找

FTS 是 Full Text Search 的缩写,中文译为全文搜索、全文检索。


"全文检索" 是指计算机索引程序通过扫描文章的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置;当用户查询时,检索程序会根据事先建立的索引进行查找,并将查找结果反馈给用户的检索方式。"全文检索" 过程类似于通过字典中的检索字表,查字的过程。


除 "全文搜索" 外,类似技术还有目录搜索、元搜索、垂直搜索、等等。


常用 "全文搜索引擎" 有百度、谷歌 Google、Bing 必应、360 搜索、搜狗、等等。此处的 FTS "全文搜索" 的搜索引擎,主要用于服务器端及 "搜索数据库" 中的数据。


若将 "全文搜索引擎" 技术直接或间接移植到 PC 计算机端,在用户使用体验上会非常不理想 (百度、Google、微软、等曾都这样做过,必竟都是基于服务器、大数据开发的),且精度也不高。


2014 年 "德云社区" 提出的 "实时全文搜索" 技术 (基于 PC 端,服务器端还在开发中) 克服了以上问题,目前已应用在 "德云社区" 系列产品中,用于提高 "工作-生产" 效率效果还不错。


"德云社区" 简化了之前的 "全文搜索引擎" 技术,并对其进行了扩展及优化,可达到 100% 高精度 "查找-索引"。


批处理式 "数字 Python IDE" 集成开发环境 (集成高效 Cython PyInstaller 批处理小程序)

http://dt.digitser.cn/zh-CN/ide/idepy/index.html


按字检索 vs 按词检索

FTS "全文搜索" 分为 "按字检索" 和 "按词检索" 2 种。


01、按字检索

指对文章中的每一个字建立索引,检索时将词分解为字的组合。


对于各种不同的语言而言,字有不同的含义;比如:英文中字与词实际上是合一的,而中文中的字与词却有很大分别。


02、按词检索

指对文章中的词,即语义单位建立索引,检索时按词检索,且可处理同义项等。


英文等西方文字由于按照空白切分词,因此实现上与按字处理类似,添加同义处理也很容易。


中文等东方文字则需要切分字词,以达到按词索引的目的,关于这方面的问题,是当前 "全文检索" 技术尤其是中文全文检索技术中的难点。


全文检索系统

"全文检索系统" 是按照  "全文检索" 理论建立起来的,用于提供全文检索服务的软件系统。


一般来说,"全文检索系统" 需具备建立索引和提供查询的基本功能;此外,现代 "全文检索系统" 还需具有方便的用户接口、面向 WWW 的开发接口、二次应用开发接口、等等。


功能上,"全文检索系统" 核心具有建立索引、处理查询返回结果集、增加索引、优化索引结构、等等功能;外围则由各种不同应用,具有的功能组成。


结构上,"全文检索系统" 核心具有索引引擎、查询引擎、文本分析引擎、对外接口、等等;加上各种外围应用系统等,共同构成 "全文检索系统"。


多线程 批处理式 全文搜索 工具
http://dt.digitser.cn/zh-CN/applet/fulltext_search/index.html

多线程 批处理式 全文搜索-文本 工具
http://dt.digitser.cn/zh-CN/applet/fulltext_searchtext/index.html


多线程 批处理式 全文替换 工具
http://dt.digitser.cn/zh-CN/applet/fulltext_replace/index.html

多线程 批处理式 全文替换-多 工具
http://dt.digitser.cn/zh-CN/applet/fulltext_replacemany/index.html

多线程 批处理式 全文替换-文本 工具
http://dt.digitser.cn/zh-CN/applet/fulltext_replacetext/index.html


多线程 批处理式 全文移动-文本 工具
http://dt.digitser.cn/zh-CN/applet/fulltext_move/index.html


扫一扫关注 德云社区 微信公众号

版权声明:
本文为独家原创稿件,版权归 德云社区,未经许可不得转载。

路过

雷人

握手

鲜花

鸡蛋
AI人工智能 语音助理 人工翻译 教程

相关阅读

最新评论

CSS3 官方中文文档编制 手册教程 人工翻译 更新日志
CSS3 官方中文文档编制 手册教程 人工翻译 更新日志 CSS3 中文文档编制采用机器辅助 + 全人工翻译,完全采用 数字翻译 的文档翻译流程进行汉化 (未采用任何第 3 方工具),[803/2022-07-31]
CSS3 官方中文文档编制 手册教程 帮助文件 人工翻译
CSS3 官方中文文档编制 手册教程 帮助文件 人工翻译 CSS3 中文文档编制采用机器辅助 + 全人工翻译,完全采用 数字翻译 的文档翻译流程进行汉化 (未采用任何第 3 方工具),[940/2022-07-31]
SolidWorks 2020 非对称Conic Rho圆角 抽壳出现模型穿刺
SolidWorks 2020 非对称Conic Rho圆角 抽壳出现模型穿刺 标准对称圆角最常用,但有时偶尔也会用到非对称圆角。 特别是模具、五金、电子、手饰、汽车、家具、玩具、等对圆[843/2022-05-25]
NumPy 1.22 官方中文文档编制 手册帮助 更新日志
NumPy 1.22 官方中文文档编制 手册帮助 更新日志 以后不再上传 en-US 官方原版文档编制,目前上传的最新 zh-CN 人工翻译版本为 NumPy 1.22。 NumPy 1.22 中文文档编制采用[541/2022-05-22]
NumPy 1.22 官方中文文档编制 手册帮助 全人工翻译
NumPy 1.22 官方中文文档编制 手册帮助 全人工翻译 以后不再上传 en-US 官方原版文档编制,目前上传的最新 zh-CN 人工翻译版本为 NumPy 1.22。 NumPy 1.22 中文文档编制采[607/2022-05-22]
Pillow 9.1.1 官方中文文档编制 手册帮助 更新日志
Pillow 9.1.1 官方中文文档编制 手册帮助 更新日志 以后不再上传 en-US 官方原版文档编制,目前上传的最新 zh-CN 人工翻译版本为 Pillow 9.1.1。 Pillow 9.1.1 中文文档编[583/2022-05-22]
Pillow 9.1.1 官方中文文档编制 手册帮助 全人工翻译
Pillow 9.1.1 官方中文文档编制 手册帮助 全人工翻译 以后不再上传 en-US 官方原版文档编制,目前上传的最新 zh-CN 人工翻译版本为 Pillow 9.1.1。 Pillow 9.1.1 中文文档[533/2022-05-22]
PyMuPDF 1.19.6 官方中文文档编制 手册帮助 更新日志
PyMuPDF 1.19.6 官方中文文档编制 手册帮助 更新日志 以后不再上传 en-US 官方原版文档编制,目前上传的最新 zh-CN 人工翻译版本为 PyMuPDF 1.19.6。 PyMuPDF 1.19.6 中文[1099/2022-05-22]
PyMuPDF 1.19.6 官方中文文档编制 手册帮助 全人工翻译
PyMuPDF 1.19.6 官方中文文档编制 手册帮助 全人工翻译 以后不再上传 en-US 官方原版文档编制,目前上传的最新 zh-CN 人工翻译版本为 PyMuPDF 1.19.6。 PyMuPDF 1.19.6 中[936/2022-05-22]
Qt 6.3.0 官方中文文档编制 手册教程 帮助文件 人工翻译
Qt 6.3.0 官方中文文档编制 手册教程 帮助文件 人工翻译 以后不再上传 en-US 官方原版文档编制,目前上传的最新 zh-CN 人工翻译版本为 Qt 6.3.0。 Qt 6.3.0 中文文档编制[2394/2022-05-02]
Qt 6.3.0 官方中文文档编制 手册教程 人工翻译更新日志
Qt 6.3.0 官方中文文档编制 手册教程 人工翻译更新日志 以后不再上传 en-US 官方原版文档编制,目前上传的最新 zh-CN 人工翻译版本为 Qt 6.3.0。 Qt 6.3.0 中文文档编制采[1988/2022-05-02]
MAGIX Music Maker Premium - 易学易用 功能强大的可视化编曲软件
MAGIX Music Maker Premium - 易学易用 功能强大的可视化编曲软件 MAGIX Music Maker 是德国 Magix 出品的可视化编曲软件,功能强大、使用简单、容易上手。 MAGIX Music Ma[1698/2022-04-11]
MQTT - 消息队列遥测技术 M2M机器到机器 IoT物联网 通信协议
MQTT - 消息队列遥测技术 M2M机器到机器 IoT物联网 通信协议 MQTT 是 Message Queuing Telemetry Transport 的缩写,中文译为消息队列遥测传输。 MQTT 是 ISO 标准 (ISO/I[578/2022-02-24]
数字 Python IDE 2022 注册机 注册码生成器 附详细破解方法
数字 Python IDE 2022 注册机 注册码生成器 附详细破解方法 数字 Python IDE 目前还在不断研发 进步中,虽不太成熟,但其新理念很有特色 特别适于多版本 多文档 多工程并行[641/2022-02-01]
数字翻译 2022 注册机 注册码生成器 内存破解器 附详细用法
数字翻译 2022 注册机 注册码生成器 内存破解器 附详细用法 数字翻译目前还在不断研发 进步中,虽不太成熟,但其新理念很有特色 特别适于 HTML 文档本地化 (面向高精度 超[590/2022-02-01]

Archiver|Sitemap|小黑屋|德云社区   

GMT+8, 2024-3-19 15:47 , Processed in 0.052018 second(s), 27 queries .

工业和信息化部: 粤ICP备14079481号-2

技术支持 乐数软件     版权所有 © 2014-2021 德云社区    

返回顶部