自然语言话语处理


人工智能最难的问题是计算机对自然语言的处理,或者说自然语言处理是人工智能最难的问题。如果我们谈论 NLP 的主要问题,那么 NLP 的主要问题之一就是话语处理——建立关于话语如何组合在一起形成连贯话语的理论和模型。事实上,语言总是由并置的、结构化的、连贯的句子组组成,而不是像电影那样孤立的、不相关的句子。这些连贯的句子组被称为话语。

连贯性的概念

连贯性和话语结构在很多方面是相互关联的。连贯性以及良好文本的属性被用来评估自然语言生成系统的输出质量。这里出现的问题是文本的连贯性意味着什么?假设我们从报纸的每一页收集一句话,那它会是一篇话语吗?当然不是。这是因为这些句子没有表现出连贯性。连贯的话语必须具备以下属性 -

话语之间的连贯关系

如果话语之间存在有意义的联系,那么话语就会是连贯的。这种性质称为相干关系。例如,必须有某种解释来证明话语之间的联系。

实体之间的关系

使话语连贯的另一个属性是与实体之间必须存在某种关系。这种一致性称为基于实体的一致性。

话语结构

关于话语的一个重要问题是话语必须具有什么样的结构。这个问题的答案取决于我们对话语的细分。语篇分段可以定义为确定大语篇的结构类型。实现语篇切分是相当困难的,但是对于信息检索、文本摘要和信息提取这类应用来说非常重要。

话语切分算法

在本节中,我们将学习话语分割的算法。算法描述如下 -

无监督话语分割

无监督话语分割的类别通常表示为线性分割。我们可以借助示例来理解线性分割的任务。在示例中,有一个将文本分割成多段落单元的任务;单位代表原文的段落。这些算法依赖于内聚力,内聚力可以定义为使用某些语言工具将文本单元连接在一起。另一方面,词汇衔接是通过两个单元中两个或多个单词之间的关系来表示的衔接,就像同义词的使用一样。

有监督的话语分割

早期的方法没有任何手工标记的段边界。另一方面,有监督的话语分割需要有边界标记的训练数据。获得同样的东西非常容易。在监督语篇分割中,语篇标记或提示词起着重要作用。话语标记或提示词是用于表示话语结构的单词或短语。这些话语标记是特定领域的。

文本连贯性

词汇重复是一种寻找语篇结构的方法,但它不能满足语篇连贯的要求。要实现话语的连贯,必须注重具体的连贯关系。众所周知,连贯关系定义了话语中话语之间可能的联系。赫布提出了如下这种关系 -

我们用两个术语S 0S 1来表示两个相关句子的含义 -

结果

它推断项S 0断言的状态可能导致S 1断言的状态。例如,有两个语句显示关系结果:Ram 被火烧死。他的皮肤被烧伤了。

解释

它推断S 1断言的状态可能导致S 0断言的状态。例如,有两个语句显示了这种关系:Ram 与 Shyam 的朋友打架。他喝醉了。

平行线

它从S 0的断言推断出 p(a1,a2,...) ,并从断言S 1推断出 p(b1,b2,...) 。这里 ai 和 bi 对于所有 i 来说都是相似的。例如,两个陈述是平行的 - Ram 想要汽车。夏姆想要钱。

阐述

它从两个断言 - S 0S 1推断出相同的命题 P例如,两个陈述显示了关系阐述:Ram was from Chandigarh。希亚姆来自喀拉拉邦。

场合

当可以从S 0的断言推断出状态的变化时,就会发生这种情况,并且可以从S 1推断出其最终状态,反之亦然。例如,这两个语句显示了关系场合:Ram拿起了书。他把它交给了夏姆。

构建层级话语结构

整个话语的连贯性也可以通过连贯关系之间的层次结构来考虑。例如,以下段落可以表示为层次结构 -

  • S 1 - Ram 去银行存钱。

  • S 2 - 然后他乘坐火车前往 Shyam 的布店。

  • S 3 - 他想买一些衣服。

  • S 4 - 他没有参加聚会的新衣服。

  • S 5 - 他还想与 Shyam 谈谈他的健康状况

构建层级话语结构

参考分辨率

解释任何话语中的句子是另一项重要任务,为了实现这一目标,我们需要知道正在谈论的是谁或什么实体。这里,解释参考是关键要素。指称可以被定义为表示实体或个体的语言表达。例如,在段落中,ABC银行的经理Ram在一家商店看到了他的朋友 Shyam。去见他,Ram、His、He 等语言表达都是参考。

同样,引用解析可以定义为确定哪种语言表达引用哪些实体的任务。

参考解析中使用的术语

我们在参考分辨率中使用以下术语 -

  • 引用表达式- 用于执行引用的自然语言表达式称为引用表达式。例如,上面使用的段落是指称表达。

  • 所指对象- 它是被引用的实体。例如,在最后一个给定的示例中,Ram 是一个所指对象。

  • Corefer - 当两个表达式用于引用同一实体时,它们称为 corefer。例如,拉姆是核心裁判。

  • 前提- 该术语有权使用另一个术语。例如,Ram是参考词he的先行词。

  • 照应和照应-它可以定义为对先前已引入句子中的实体的引用。并且,所指表达被称为照应。

  • 话语模型- 包含话语中提到的实体的表示以及它们所参与的关系的模型。

引用表达式的类型

现在让我们看看不同类型的引用表达式。下面描述了五种类型的引用表达式 -

不定名词短语

这种引用代表了话语上下文中听者所不熟悉的实体。例如,在“Ram had gone around one day to Bring his some food”这句话中,“some”是不定指代。

定名词短语

与上述相反,这种引用代表了在话语上下文中对于听者来说不是新的或不可识别的实体。例如,在句子中 - 我曾经读过《印度时报》 - 《印度时报》就是明确的参考。

代词

它是一种明确的参考形式。例如,拉姆尽可能大声地笑。这个词代表代词指代表达。

指示代词

它们的表现和Behave与简单的定代词不同。例如,this 和 that 是指示代词。

名称

这是最简单的引用表达式类型。它也可以是个人、组织和地点的名称。例如,在上面的示例中,Ram 是名称引用表达式。

参考解析任务

下面描述了两个参考解析任务。

共指消解

它的任务是在文本中查找引用同一实体的引用表达式。简单来说,就是寻找 corefer 表达式的任务。一组共引用表达式称为共引用链。例如 - 他、首席经理和他的 - 这些是作为示例给出的第一段中的指称表达。

共指解析的约束

在英语中,共指消解的主要问题是代词it。这背后的原因是代词 it 有很多用途。例如,它可以指代“他”和“她”。代词it也指代不指具体事物的事物。例如,下雨了。这真的很好。

代词照应解析

与共指消解不同,代词回指消解可以定义为查找单个代词的先行词的任务。例如,代词是 his,代词回指解析的任务是找到 Ram 这个词,因为 Ram 是先行词。