NLP-信息检索

信息检索（IR）可以定义为处理文档存储库中的信息（特别是文本信息）的组织、存储、检索和评估的软件程序。该系统帮助用户找到他们需要的信息，但它不会明确返回问题的答案。它告知可能包含所需信息的文档的存在和位置。满足用户要求的文件称为相关文件。完美的 IR 系统只会检索相关文档。

借助下图，我们可以了解信息检索（IR）的过程 -

从上图可以清楚地看出，需要信息的用户必须用自然语言以查询的形式提出请求。然后，IR 系统将通过检索有关所需信息的文档形式的相关输出来做出响应。

信息检索（IR）系统中的经典问题

IR 研究的主要目标是开发一种从文档存储库中检索信息的模型。在这里，我们将讨论一个与 IR 系统相关的经典问题，称为临时检索问题。

在即席检索中，用户必须以自然语言输入描述所需信息的查询。然后IR系统将返回与所需信息相关的所需文件。例如，假设我们正在互联网上搜索某些内容，它会根据我们的要求提供一些相关的确切页面，但也可能存在一些不相关的页面。这是由于临时检索问题造成的。

即席检索的各个方面

以下是 IR 研究中解决的临时检索的一些方面 -

用户如何在相关性反馈的帮助下改进查询的原始表述？
如何实现数据库合并，即如何将不同文本数据库的结果合并到一个结果集中？
如何处理部分损坏的数据？哪些型号适合相同的情况？

信息检索 (IR) 模型

在数学上，模型被用于许多科学领域，其目的是理解现实世界中的某些现象。信息检索模型预测并解释用户将找到与给定查询相关的内容。IR 模型基本上是一种定义检索过程上述方面的模式，由以下部分组成：

文档模型。
查询模型。
将查询与文档进行比较的匹配函数。

从数学上讲，检索模型包括 -

D - 文件表示。

R - 查询的表示。

F - D、Q 的建模框架以及它们之间的关系。

R (q,di) - 一个相似性函数，根据查询对文档进行排序。也称为排名。

信息检索 (IR) 模型的类型

信息模型（IR）模型可以分为以下三个模型 -

经典IR模型

它是最简单且易于实现的IR模型。该模型基于易于识别和理解的数学知识。布尔型、向量型和概率型是三种经典的 IR 模型。

非经典IR模型

它与经典的IR模型完全相反。此类 IR 模型基于相似性、概率、布尔运算以外的原理。信息逻辑模型、情境理论模型和交互模型是非经典IR模型的例子。

替代 IR 模型

它是利用其他领域的一些特定技术对经典IR模型的增强。聚类模型、模糊模型和潜在语义索引（LSI）模型是替代IR模型的例子。

信息检索（IR）系统的设计特点

现在让我们了解红外系统的设计特点 -

倒排索引

大多数IR系统的主要数据结构都是倒排索引的形式。我们可以将倒排索引定义为一种数据结构，它列出了每个单词的所有包含该单词的文档以及文档中出现的频率。它使得搜索查询词的“命中”变得容易。

停用词消除

停用词是那些被认为不太可能对搜索有用的高频词。它们的语义权重较小。所有此类单词都在称为停止列表的列表中。例如，冠词“a”、“an”、“the”以及介词“in”、“of”、“for”、“at”等都是停用词的例子。通过停止列表可以显着减小倒排索引的大小。根据齐普夫定律，涵盖几十个单词的非索引字列表可将倒排索引的大小减少近一半。另一方面，有时停用词的消除可能会导致对搜索有用的术语被消除。例如，如果我们从“维生素A”中去掉字母“A”，那么它就没有任何意义。

词干提取

词干提取是形态分析的简化形式，是通过砍掉单词末尾来提取单词基本形式的启发式过程。例如，单词“laughing”、“laughs”、“laugh” 将被提取到词根“laugh”。

在后续部分中，我们将讨论一些重要且有用的 IR 模型。

布尔模型

它是最古老的信息检索（IR）模型。该模型基于集合论和布尔代数，其中文档是术语集，查询是术语的布尔表达式。布尔模型可以定义为 -

D - 一组单词，即文档中存在的索引术语。这里，每一项要么存在（1），要么不存在（0）。
Q - 布尔表达式，其中项是索引项，运算符是逻辑乘积 - AND、逻辑和 - OR 和逻辑差 - NOT
F - 术语集以及文档集上的布尔代数

如果我们谈论相关性反馈，那么在布尔 IR 模型中，相关性预测可以定义如下 -
R - 文档被预测为与查询表达式相关当且仅当它满足查询表达式为 -

((