人工智能-自然语言处理


自然语言处理(NLP)是指使用英语等自然语言与智能系统进行通信的人工智能方法。

当您希望机器人等智能系统按照您的指令执行时,当您想听取基于对话的临床专家系统的决定等时,需要进行自然语言处理。

NLP 领域涉及让计算机使用人类使用的自然语言执行有用的任务。NLP 系统的输入和输出可以是 -

  • 演讲
  • 书面文字

NLP 的组成部分

NLP 有两个组成部分 -

自然语言理解(NLU)

理解涉及以下任务 -

  • 将给定的自然语言输入映射为有用的表示。
  • 分析语言的不同方面。

自然语言生成(NLG)

它是从某种内部表征中以自然语言的形式产生有意义的短语和句子的过程。

它涉及 -

  • 文本规划- 它包括从知识库中检索相关内容。

  • 句子规划- 它包括选择所需的单词、形成有意义的短语、设定句子的基调。

  • 文本实现- 将句子计划映射到句子结构。

NLU 比 NLG 更难。

NLU 的难点

NL具有极其丰富的形式和结构。

这是非常模糊的。可能存在不同程度的歧义 -

  • 词汇歧义- 它处于非常原始的水平,例如单词水平。

  • 例如,将“board”一词视为名词还是动词?

  • 语法级别歧义- 可以用不同的方式解析句子。

  • 例如,“他举起了戴着红帽子的甲虫。” − 他是用帽子举起甲虫还是举起一只带有红色帽子的甲虫?

  • 指称歧义- 使用代词指代某事物。例如,里玛去了高里。她说:“我累了。” − 到底谁累了?

  • 一种输入可能意味着不同的含义。

  • 许多输入可能意味着相同的事情。

自然语言处理术语

  • 音系学- 它是系统地组织声音的研究。

  • 形态学- 它是对原始有意义单位的单词构造的研究。

  • 词素- 它是语言中意义的原始单位。

  • 语法- 指排列单词来造句。它还涉及确定单词在句子和短语中的结构作用。

  • 语义学- 它涉及单词的含义以及如何将单词组合成有意义的短语和句子。

  • 语用学- 它涉及在不SymPy况下使用和理解句子以及句子的解释如何受到影响。

  • 话语- 它涉及前一个句子如何影响下一个句子的解释。

  • 世界知识- 它包括关于世界的一般知识。

NLP 的步骤

一般有五个步骤 -

  • 词法分析- 它涉及识别和分析单词的结构。语言词典是指语言中单词和短语的集合。词法分析是将整个文本块划分为段落、句子和单词。

  • 句法分析(解析) - 它涉及对句子中的单词进行语法分析,并以显示单词之间关系的方式排列单词。像“The school go to boy”这样的句子被英语句法分析器拒绝。

自然语言处理步骤
  • 语义分析- 它从文本中提取确切的含义或字典含义。检查文本的意义。它是通过映射任务域中的句法结构和对象来完成的。语义分析器忽略诸如“热冰淇淋”之类的句子。

  • 话语整合- 任何句子的含义取决于它之前的句子的含义。此外,它还带来了紧接后续句子的含义。

  • 实用分析- 在此期间,所说的话被重新解释为它的实际含义。它涉及派生语言中需要现实世界知识的那些方面。

句法分析的实施方面

研究人员开发了许多用于句法分析的算法,但我们只考虑以下简单方法 -

  • 上下文无关语法
  • 自上而下的解析器

让我们详细看看它们 -

上下文无关语法

它是由重写规则左侧带有单个符号的规则组成的语法。让我们创建语法来解析一个句子 -

“鸟儿啄食谷物”

文章 (DET) − a | 一个 | 这

名词- 鸟 | 鸟类 | 粮食| 谷物

名词短语 (NP) - 冠词 + 名词 | 冠词+形容词+名词

= 检测 N | 检测调整 N

动词- 啄 | 啄食 | 啄

动词短语 (VP) − NP V | 电压NP

形容词 (ADJ) − 美丽 | 小| 叽叽喳喳

解析树将句子分解为结构化部分,以便计算机可以轻松理解和处理它。为了让解析算法构建这个解析树,需要构建一组重写规则,描述哪些树结构是合法的。

这些规则规定,树中的某个符号可以通过一系列其他符号进行扩展。根据一阶逻辑规则,如果有两个字符串名词短语(NP)和动词短语(VP),那么NP和VP组合而成的字符串就是一个句子。句子的重写规则如下 -

S → NP VP

NP→DET N| 检测调整 N

VP → V NP

Lexocon -

DET→a | 这

ADJ → 美丽 | 栖息

N → 鸟 | 鸟类 | 粮食| 谷物

V → 啄 | 啄 | 啄食

可以创建解析树,如下所示 -

自然语言处理步骤

现在考虑上面的重写规则。由于 V 可以被“peck”或“pecks”两者替换,因此诸如“The Bird peck thegrains”之类的句子可能会被错误地允许。即主谓一致错误被认可为正确。

优点- 最简单的语法风格,因此被广泛使用。

缺点 -

  • 它们的精度不高。例如,“Thegrainspeckthebird”根据解析器来说在语法上是正确的,但即使它没有意义,解析器也会将其视为正确的句子。

  • 为了达到高精度,需要准备多套语法。它可能需要一套完全不同的规则来解析单数和复数变体、被动句等,这可能导致创建大量难以管理的规则。

自上而下的解析器

在这里,解析器从 S 符号开始,尝试将其重写为与输入句子中单词的类别相匹配的终结符号序列,直到它完全由终结符号组成。

然后用输入句子检查它​​们是否匹配。如果不是,则使用一组不同的规则重新开始该过程。重复此操作,直到找到描述句子结构的特定规则。

优点- 实施起来很简单。

缺点 -

  • 它效率低下,因为如果发生错误则必须重复搜索过程。
  • 工作速度慢。