NLP-信息检索


信息检索(IR)可以定义为处理文档存储库中的信息(特别是文本信息)的组织、存储、检索和评估的软件程序。该系统帮助用户找到他们需要的信息,但它不会明确返回问题的答案。它告知可能包含所需信息的文档的存在和位置。满足用户要求的文件称为相关文件。完美的 IR 系统只会检索相关文档。

借助下图,我们可以了解信息检索(IR)的过程 -

相关输出信息

从上图可以清楚地看出,需要信息的用户必须用自然语言以查询的形式提出请求。然后,IR 系统将通过检索有关所需信息的文档形式的相关输出来做出响应。

信息检索(IR)系统中的经典问题

IR 研究的主要目标是开发一种从文档存储库中检索信息的模型。在这里,我们将讨论一个与 IR 系统相关的经典问题,称为临时检索问题。

在即席检索中,用户必须以自然语言输入描述所需信息的查询。然后IR系统将返回与所需信息相关的所需文件。例如,假设我们正在互联网上搜索某些内容,它会根据我们的要求提供一些相关的确切页面,但也可能存在一些不相关的页面。这是由于临时检索问题造成的。

即席检索的各个方面

以下是 IR 研究中解决的临时检索的一些方面 -

  • 用户如何在相关性反馈的帮助下改进查询的原始表述?

  • 如何实现数据库合并,即如何将不同文本数据库的结果合并到一个结果集中?

  • 如何处理部分损坏的数据?哪些型号适合相同的情况?

信息检索 (IR) 模型

在数学上,模型被用于许多科学领域,其目的是理解现实世界中的某些现象。信息检索模型预测并解释用户将找到与给定查询相关的内容。IR 模型基本上是一种定义检索过程上述方面的模式,由以下部分组成:

  • 文档模型。

  • 查询模型。

  • 将查询与文档进行比较的匹配函数。

从数学上讲,检索模型包括 -

D - 文件表示。

R - 查询的表示。

F - D、Q 的建模框架以及它们之间的关系。

R (q,di) - 一个相似性函数,根据查询对文档进行排序。也称为排名。

信息检索 (IR) 模型的类型

信息模型(IR)模型可以分为以下三个模型 -

经典IR模型

它是最简单且易于实现的IR模型。该模型基于易于识别和理解的数学知识。布尔型、向量型和概率型是三种经典的 IR 模型。

非经典IR模型

它与经典的IR模型完全相反。此类 IR 模型基于相似性、概率、布尔运算以外的原理。信息逻辑模型、情境理论模型和交互模型是非经典IR模型的例子。

替代 IR 模型

它是利用其他领域的一些特定技术对经典IR模型的增强。聚类模型、模糊模型和潜在语义索引(LSI)模型是替代IR模型的例子。

信息检索(IR)系统的设计特点

现在让我们了解红外系统的设计特点 -

倒排索引

大多数IR系统的主要数据结构都是倒排索引的形式。我们可以将倒排索引定义为一种数据结构,它列出了每个单词的所有包含该单词的文档以及文档中出现的频率。它使得搜索查询词的“命中”变得容易。

停用词消除

停用词是那些被认为不太可能对搜索有用的高频词。它们的语义权重较小。所有此类单词都在称为停止列表的列表中。例如,冠词“a”、“an”、“the”以及介词“in”、“of”、“for”、“at”等都是停用词的例子。通过停止列表可以显着减小倒排索引的大小。根据齐普夫定律,涵盖几十个单词的非索引字列表可将倒排索引的大小减少近一半。另一方面,有时停用词的消除可能会导致对搜索有用的术语被消除。例如,如果我们从“维生素A”中去掉字母“A”,那么它就没有任何意义。

词干提取

词干提取是形态分析的简化形式,是通过砍掉单词末尾来提取单词基本形式的启发式过程。例如,单词“laughing”、“laughs”、“laugh” 将被提取到词根“laugh”。

在后续部分中,我们将讨论一些重要且有用的 IR 模型。

布尔模型

它是最古老的信息检索(IR)模型。该模型基于集合论和布尔代数,其中文档是术语集,查询是术语的布尔表达式。布尔模型可以定义为 -

  • D - 一组单词,即文档中存在的索引术语。这里,每一项要么存在(1),要么不存在(0)。

  • Q - 布尔表达式,其中项是索引项,运算符是逻辑乘积 - AND、逻辑和 - OR 和逻辑差 - NOT

  • F - 术语集以及文档集上的布尔代数

    如果我们谈论相关性反馈,那么在布尔 IR 模型中,相关性预测可以定义如下 -

  • R - 文档被预测为与查询表达式相关当且仅当它满足查询表达式为 -

((