自然语言处理 - 简介


语言是一种交流方式,借助它我们可以说、读和写。例如,我们用自然语言思考、制定决策、计划等;确切地说,用言语来说。然而,在这个人工智能时代,我们面临的一个大问题是我们能否以类似的方式与计算机进行交流。换句话说,人类可以用自然语言与计算机进行交流吗?开发 NLP 应用程序对我们来说是一个挑战,因为计算机需要结构化数据,但人类语音是非结构化的,并且本质上常常是模糊的。

从这个意义上说,我们可以说自然语言处理(NLP)是计算机科学尤其是人工智能(AI)的子领域,它关注的是使计算机能够理解和处理人类语言。从技术上讲,NLP的主要任务是对计算机进行编程来分析和处理大量自然语言数据。

自然语言处理的历史

我们将NLP的历史分为四个阶段。这些阶段有独特的关注点和风格。

第一阶段(机器翻译阶段)- 20 世纪 40 年代末至 1960 年代末

这一阶段完成的工作主要集中在机器翻译(MT)方面。这个阶段是一个充满热情和乐观的时期。

现在让我们看看第一阶段的所有内容 -

  • 在 Booth & Richens 的调查以及 1949 年 Weaver 的机器翻译备忘录之后,NLP 的研究开始于 20 世纪 50 年代初。

  • 1954 年,Georgetown-IBM 实验展示了从俄语到英语的自动翻译的有限实验。

  • 同年,MT(机器翻译)杂志创刊。

  • 第一届机器翻译(MT)国际会议于1952年召开,第二届于1956年召开。

  • 1961 年,特丁顿国际语言机器翻译和应用语言分析会议上提出的工作是这一阶段的高潮。

第二阶段(人工智能影响阶段)——20 世纪 60 年代末至 1970 年代末

在这个阶段,所做的工作主要与世界知识及其在意义表征的构建和操纵中的作用有关。因此,这个阶段也被称为AI风味阶段。

该阶段包含以下内容 -

  • 1961 年初,工作开始于解决和构建数据或知识库的问题。这项工作受到了人工智能的影响。

  • 同年还开发了BASEBALL问答系统。该系统的输入受到限制,并且涉及的语言处理很简单。

  • Minsky (1968) 描述了一个非常先进的系统。与棒球问答系统相比,该系统被认可并提供了在解释和响应语言输入时对知识库进行推理的需要。

第三阶段(语法逻辑阶段)——20世纪70年代末至80年代末

这个阶段可以被描述为语法逻辑阶段。由于上一阶段实际系统构建的失败,研究人员转向使用逻辑在人工智能中进行知识表示和推理。

第三阶段有以下内容 -

  • 接近十年末的语法逻辑方法帮助我们开发了强大的通用句子处理器,例如 SRI 的核心语言引擎和话语表示理论,它提供了一种处理更扩展话语的方法。

  • 在这个阶段,我们获得了一些实用的资源和工具,例如解析器,例如 Alvey 自然语言工具,以及更多的操作和商业系统,例如用于数据库查询的系统。

  • 20世纪80年代的词汇工作也指向了语法逻辑方法的方向。

第四阶段(词汇和语料库阶段)——20 世纪 90 年代

我们可以将其描述为词汇和语料库阶段。这一阶段出现了 20 世纪 80 年代末出现的词汇化语法方法,影响力越来越大。随着用于语言处理的机器学习算法的引入,自然语言处理在这十年中发生了一场革命。

人类语言研究

语言是人类生活的重要组成部分,也是我们Behave最基本的方面。我们主要可以通过两种形式来体验它——书面的和口头的。以书面形式,这是将我们的知识代代相传的一种方式。在口头形式中,它是人类在日常Behave中相互协调的主要媒介。语言在各个学科中都有研究。每个学科都有自己的一系列问题和一套解决这些问题的解决方案。

请考虑下表来理解这一点 -

纪律 问题 工具

语言学家

如何用单词组成短语和句子?

什么限制了句子的可能含义?

关于格式良好和意义的直觉。

结构的数学模型。例如,模型理论语义、形式语言理论。

心理语言学家

人类如何识别句子的结构?

如何识别单词的含义?

理解什么时候发生?

主要用于测量人类表现的实验技术。

观察结果的统计分析。

哲学家

单词和句子如何获得意义?

如何通过文字来识别物体?

什么意思?

利用直觉进行自然语言论证。

数学模型,如逻辑和模型论。

计算语言学家

我们如何识别句子的结构

如何对知识和推理进行建模?

我们如何使用语言来完成特定的任务?

算法

数据结构

表示和推理的形式模型。

人工智能技术,如搜索和表示方法。

语言的歧义和不确定性

歧义通常用于自然语言处理,可以指以多种方式理解的能力。简单来说,我们可以说歧义是一种以多种方式被理解的能力。自然语言是非常模糊的。NLP 有以下类型的歧义 -

词汇歧义

单个词的歧义称为词汇歧义。例如,将“银”一词视为名词、形容词或动词。

句法歧义

当以不同的方式解析一个句子时,就会出现这种歧义。例如,“男人用望远镜看到女孩”这句话。这名男子是看到了拿着望远镜的女孩,还是他通过望远镜看到了她,这一点并不清楚。

语义歧义

当单词本身的含义可能被误解时,就会出现这种歧义。换句话说,当句子包含歧义的单词或短语时,就会发生语义歧义。例如,句子“汽车在移动时撞到了杆子”就具有语义歧义,因为解释可以是“汽车在移动时撞到杆子”和“汽车在杆子移动时撞到杆子”。

照应歧义

这种歧义是由于在话语中使用照应实体而产生的。例如,马跑上山。非常陡峭。很快就累了。在这里,“it”在两种情况下的照应指代会引起歧义。

语用歧义

这种歧义是指一个短语的上下文赋予它多种解释的情况。简而言之,我们可以说,当陈述不具体时,就会出现语用歧义。例如,“我也喜欢你”这句话可以有多种解释,比如我喜欢你(就像你喜欢我一样),我喜欢你(就像其他人一样)。

自然语言处理阶段

下图显示了自然语言处理的阶段或逻辑步骤 -

阶段或逻辑步骤

形态处理

这是NLP的第一阶段。此阶段的目的是将语言输入块分解为与段落、句子和单词相对应的标记集。例如,像“uneasy”这样的单词可以分解为两个子词标记“un-easy”

语法分析

这是NLP的第二阶段。此阶段的目的有两个:检查句子的结构是否良好,并将其分解为显示不同单词之间句法关系的结构。例如,像“The school gos to the boy”这样的句子会被语法分析器或解析器拒绝。

语义分析

这是NLP的第三阶段。此阶段的目的是得出准确的含义,或者您可以从文本中说出字典含义。检查文本的意义。例如,语义分析器会拒绝“热冰淇淋”这样的句子。

务实分析

这是NLP的第四阶段。实用分析只是适合实际的对象/事件,这些对象/事件存在于给定的上下文中,并在最后阶段(语义分析)中获得了对象引用。例如,句子“将香蕉放在架子上的篮子里”可以有两种语义解释,语用分析器将在这两种可能性之间进行选择。