NLP-信息检索
信息检索(IR)可以定义为处理文档存储库中的信息(特别是文本信息)的组织、存储、检索和评估的软件程序。该系统帮助用户找到他们需要的信息,但它不会明确返回问题的答案。它告知可能包含所需信息的文档的存在和位置。满足用户要求的文件称为相关文件。完美的 IR 系统只会检索相关文档。
借助下图,我们可以了解信息检索(IR)的过程 -
从上图可以清楚地看出,需要信息的用户必须用自然语言以查询的形式提出请求。然后,IR 系统将通过检索有关所需信息的文档形式的相关输出来做出响应。
信息检索(IR)系统中的经典问题
IR 研究的主要目标是开发一种从文档存储库中检索信息的模型。在这里,我们将讨论一个与 IR 系统相关的经典问题,称为临时检索问题。
在即席检索中,用户必须以自然语言输入描述所需信息的查询。然后IR系统将返回与所需信息相关的所需文件。例如,假设我们正在互联网上搜索某些内容,它会根据我们的要求提供一些相关的确切页面,但也可能存在一些不相关的页面。这是由于临时检索问题造成的。
即席检索的各个方面
以下是 IR 研究中解决的临时检索的一些方面 -
用户如何在相关性反馈的帮助下改进查询的原始表述?
如何实现数据库合并,即如何将不同文本数据库的结果合并到一个结果集中?
如何处理部分损坏的数据?哪些型号适合相同的情况?
信息检索 (IR) 模型
在数学上,模型被用于许多科学领域,其目的是理解现实世界中的某些现象。信息检索模型预测并解释用户将找到与给定查询相关的内容。IR 模型基本上是一种定义检索过程上述方面的模式,由以下部分组成:
文档模型。
查询模型。
将查询与文档进行比较的匹配函数。
从数学上讲,检索模型包括 -
D - 文件表示。
R - 查询的表示。
F - D、Q 的建模框架以及它们之间的关系。
R (q,di) - 一个相似性函数,根据查询对文档进行排序。也称为排名。
信息检索 (IR) 模型的类型
信息模型(IR)模型可以分为以下三个模型 -
经典IR模型
它是最简单且易于实现的IR模型。该模型基于易于识别和理解的数学知识。布尔型、向量型和概率型是三种经典的 IR 模型。
非经典IR模型
它与经典的IR模型完全相反。此类 IR 模型基于相似性、概率、布尔运算以外的原理。信息逻辑模型、情境理论模型和交互模型是非经典IR模型的例子。
替代 IR 模型
它是利用其他领域的一些特定技术对经典IR模型的增强。聚类模型、模糊模型和潜在语义索引(LSI)模型是替代IR模型的例子。
信息检索(IR)系统的设计特点
现在让我们了解红外系统的设计特点 -
倒排索引
大多数IR系统的主要数据结构都是倒排索引的形式。我们可以将倒排索引定义为一种数据结构,它列出了每个单词的所有包含该单词的文档以及文档中出现的频率。它使得搜索查询词的“命中”变得容易。
停用词消除
停用词是那些被认为不太可能对搜索有用的高频词。它们的语义权重较小。所有此类单词都在称为停止列表的列表中。例如,冠词“a”、“an”、“the”以及介词“in”、“of”、“for”、“at”等都是停用词的例子。通过停止列表可以显着减小倒排索引的大小。根据齐普夫定律,涵盖几十个单词的非索引字列表可将倒排索引的大小减少近一半。另一方面,有时停用词的消除可能会导致对搜索有用的术语被消除。例如,如果我们从“维生素A”中去掉字母“A”,那么它就没有任何意义。
词干提取
词干提取是形态分析的简化形式,是通过砍掉单词末尾来提取单词基本形式的启发式过程。例如,单词“laughing”、“laughs”、“laugh” 将被提取到词根“laugh”。
在后续部分中,我们将讨论一些重要且有用的 IR 模型。
布尔模型
它是最古老的信息检索(IR)模型。该模型基于集合论和布尔代数,其中文档是术语集,查询是术语的布尔表达式。布尔模型可以定义为 -
D - 一组单词,即文档中存在的索引术语。这里,每一项要么存在(1),要么不存在(0)。
Q - 布尔表达式,其中项是索引项,运算符是逻辑乘积 - AND、逻辑和 - OR 和逻辑差 - NOT
F - 术语集以及文档集上的布尔代数
如果我们谈论相关性反馈,那么在布尔 IR 模型中,相关性预测可以定义如下 -
R - 文档被预测为与查询表达式相关当且仅当它满足查询表达式为 -
((