NLP - 词义消歧


我们知道单词根据句子中使用的上下文有不同的含义。如果我们谈论人类语言,那么它们也是含糊不清的,因为许多单词可以根据其出现的上下文以多种方式解释。

在自然语言处理(NLP)中,词义消歧可以被定义为确定通过在特定上下文中使用单词而激活单词的哪个含义的能力。词汇歧义、句法或语义是任何 NLP 系统面临的首要问题之一。高精度的词性(POS)标注器可以解决Word的句法歧义。另一方面,解决语义歧义的问题称为WSD(词义消歧)。解决语义歧义比解决句法歧义更难。

例如,考虑“低音”一词存在的不同含义的两个例子-

  • 我能听到低音。

  • 他喜欢吃烤鲈鱼。

低音一词的出现清楚地表明了不同的含义。在第一句话中,它意味着频率,在第二句话中,它意味着。因此,如果 WSD 能够消除歧义,那么上述句子的正确含义可以分配如下 -

  • 我可以听到低音/频率声音。

  • 他喜欢吃烤鲈鱼/鱼。

水务署的评价

WSD 的评估需要以下两个输入 -

一本字典

WSD 评估的第一个输入是字典,它用于指定要消除歧义的含义。

测试语料库

WSD 所需的另一个输入是具有目标或正确含义的高注释测试语料库。测试语料库可以有两种类型:

  • 词汇样本- 系统中使用这种语料库,需要消除少量单词样本的歧义。

  • All-words - 系统中使用这种语料库,期望消除一段运行文本中所有单词的歧义。

词义消歧(WSD)的途径和方法

WSD 的途径和方法根据单词消歧所使用的知识来源进行分类。

现在让我们看看 WSD 的四种传统方法 -

基于字典或基于知识的方法

顾名思义,这些方法主要依靠词典、宝库和词汇知识库来消歧。他们不使用语料库证据来消除歧义。Lesk 方法是 Michael Lesk 于 1986 年提出的开创性的基于字典的方法。Lesk 算法所基于的 Lesk 定义是“测量上下文中所有单词的语义定义之间的重叠”。然而,2000年,Kilgarriff和Rosensweig给出了简化的Lesk定义:“测量单词的意义定义与当前上下文之间的重叠”,这进一步意味着一次识别一个单词的正确意义。这里的当前上下文是周围句子或段落中的单词集合。

监督方法

为了消除歧义,机器学习方法利用意义注释的语料库进行训练。这些方法假设上下文本身可以提供足够的证据来消除含义的歧义。在这些方法中,知识和推理这两个词被认为是不必要的。上下文被表示为单词的一组“特征”。它还包括有关周围单词的信息。支持向量机和基于记忆的学习是 WSD 最成功的监督学习方法。这些方法依赖于大量手动标记的语料库,其创建成本非常昂贵。

半监督方法

由于缺乏训练语料,词义消歧算法大多采用半监督学习方法。这是因为半监督方法同时使用标记数据和未标记数据。这些方法需要非常少量的带注释的文本和大量的纯未注释文本。半监督方法使用的技术是从种子数据引导。

无监督方法

这些方法假设相似的含义出现在相似的上下文中。这就是为什么可以通过使用上下文相似性的某种度量对单词出现进行聚类来从文本中推断出含义。这项任务称为词义归纳或辨别。无监督方法由于不依赖手动工作而具有克服知识获取瓶颈的巨大潜力。

词义消歧(WSD)的应用

词义消歧(WSD)几乎应用于所有语言技术的应用中。

现在让我们看看 WSD 的范围 -

机器翻译

机器翻译(MT)是 WSD 最明显的应用。在 MT 中,对于不同含义具有不同翻译的单词的词汇选择是由 WSD 完成的。机器翻译中的语义被表示为目标语言中的单词。大多数机器翻译系统不使用显式的WSD模块。

信息检索(IR)

信息检索(IR)可以定义为处理文档存储库中的信息(特别是文本信息)的组织、存储、检索和评估的软件程序。该系统基本上帮助用户找到他们需要的信息,但它不会明确返回问题的答案。WSD 用于解决向 IR 系统提供的查询的歧义。与 MT 一样,当前的 IR 系统没有明确使用 WSD 模块,它们依赖于用户在查询中输入足够的上下文来仅检索相关文档的概念。

文本挖掘和信息提取(IE)

在大多数应用中,WSD是对文本进行准确分析所必需的。例如,WSD帮助智能采集系统对正确的单词进行标记。例如,医疗智能系统可能需要标记“非法药物”而不是“医用药物”

词典编纂

WSD 和词典编纂可以循环协同工作,因为现代词典编纂是基于语料库的。通过词典编纂,WSD 提供了粗略的经验意义分组以及统计上显着的意义上下文指标。

词义消歧困难(WSD)

以下是词义消歧(WSD)面临的一些困难 -

词典之间的差异

WSD 的主要问题是确定单词的含义,因为不同的含义可能非常密切相关。甚至不同的词典和同义词库也可以提供不同的词义划分。

不同的算法适合不同的应用

WSD的另一个问题是不同的应用可能需要完全不同的算法。例如,在机器翻译中,它采取目标词选择的形式;在信息检索中,不需要意义清单。

判断间差异

WSD 的另一个问题是,WSD 系统通常通过将任务结果与人类任务进行比较来进行测试。这称为判断间方差问题。

词义离散性

WSD 的另一个困难是单词不能轻易地划分为离散的子含义。