自然语言处理 - Inception


在本章中,我们将讨论自然语言处理中的自然语言起始。首先,让我们先了解什么是自然语言语法。

自然语言语法

对于语言学来说,语言是一组任意的发声符号。我们可以说语言是创造性的、受规则支配的、与生俱来的,同时也是普遍的。另一方面,这也是人性的。对于不同的人来说,语言的本质是不同的。关于语言的本质存在很多误解。这就是为什么理解模糊术语“语法”的含义非常重要。在语言学中,语法一词可以定义为语言发挥作用的规则或原则。从广义上讲,我们可以将语法分为两类 -

描述性语法

语言学家和语法学家制定说话者语法的规则集称为描述性语法。

透视语法

这是一种非常不同的语法意义,它试图维持语言的正确性标准。这个类别与语言的实际工作关系不大。

语言的组成部分

研究的语言被划分为相互关联的组成部分,这是语言研究的常规划分和任意划分。这些组件的解释如下 -

音韵学

语言的第一个组成部分是音韵学。它是对特定语言语音的研究。这个词的起源可以追溯到希腊语,其中“电话”的意思是声音或声音。语音学是音系学的一个分支,是从人类语言的产生、感知或物理特性的角度研究人类语言的语音。IPA(国际音标)是研究音韵学时以有规律的方式表示人类声音的工具。在国际音标中,每个书写符号代表一种且仅一种语音,反之亦然。

音素

它可以被定义为一种将语言中的一个单词与其他单词区分开来的声音单位。在语言学中,音素写在斜线之间。例如,音素/k/出现在 kit、skit 等单词中。

形态学

它是语言的第二个组成部分。它是对特定语言中单词的结构和分类的研究。这个词起源于希腊语,其中“morphe”一词的意思是“形式”。形态学考虑语言中单词的形成原理。换句话说,声音如何组合成有意义的单位,如前缀、后缀和词根。它还考虑如何将单词分组为词性。

词法

在语言学中,与单个单词所采用的一组形式相对应的形态分析的抽象单位称为词位。词位在句子中的使用方式由其语法类别决定。词位可以是单个单词或多单词。例如,单词 talk 是单个单词词素的一个示例,它可能有许多语法变体,如 talk、talk 和 talk。多词词位可以由多个拼字词组成。例如,speak up、pull through 等都是多词词位的示例。

句法

它是语言的第三个组成部分。它研究单词的顺序和排列成更大的单元。这个词可以追溯到希腊语,其中 suntassein 一词的意思是“整理”。它研究句子的类型及其结构、从句、短语。

语义学

它是语言的第四个组成部分。它研究的是如何传达意义。含义可以与外界有关,也可以与句子的语法有关。这个词可以追溯到希腊语,其中 semainein 的意思是“表示”、“显示”、“信号”。

语用学

它是语言的第五个组成部分。它是对语言功能及其在上下文中的使用的研究。这个词的起源可以追溯到希腊语,其中“pragma”一词的意思是“Behave”、“事务”。

语法类别

语法类别可以被定义为语言语法内的一类单元或特征。这些单元是语言的构建块,并且具有一组共同的特征。语法类别也称为语法特征。

语法类别清单如下所述 -

数字

这是最简单的语法类别。我们有两个与此类别相关的术语——单数和复数。单数是“一”的概念,而复数是“多个”的概念。例如,狗/狗,这个/这些。

性别

语法性别通过人称代词和第三人称的变化来表达。语法性别的例子是单数的——he、she、it;第一人称和第二人称形式 - 我、我们和你;他们的第三人称复数形式是普通性别或中性。

另一个简单的语法类别是人称。在此之下,以下三个术语得到认可 -

  • 第一人称- 正在讲话的人被视为第一人称。

  • 第二人- 作为听者或谈话对象的人被视为第二人。

  • 第三人称- 我们正在谈论的人或事物被认为是第三人称。

案件

它是最难的语法类别之一。它可以被定义为名词短语(NP)的功能或名词短语与动词或句子中其他名词短语的关系的指示。我们有以下三种用人称代词和疑问代词表达的情况 -

  • 主格- 这是主语的功能。例如,我、我们、你、他、她、它、他们和谁都是主格。

  • 所有格- 这是所有者的功能。例如,我的/我的、我们的/我们的、他的、她/她的、它的、他们的/他们的,谁是所有格。

  • 客观情况- 这是对象的功能。比如我、我们、你、他、她、他们,谁都是客观的。

程度

这个语法类别与形容词和副词有关。它有以下三个术语 -

  • 积极程度-它表达了一种品质。例如,大、快、漂亮都是积极的程度。

  • 比较程度- 它表达两个项目之一的质量的更大程度或强度。例如,更大、更快、更漂亮都是比较级。

  • 最高级- 它表达三个或多个项目之一的质量的最大程度或强度。例如,最大、最快、最美丽都是最高级。

确定性和不确定性

这两个概念都非常简单。我们知道,确定性代表了一个所指对象,它是说话者或听者已知的、熟悉的或可识别的。另一方面,不确定性代表未知或不熟悉的所指对象。这个概念可以通过文章与名词的共现来理解 -

  • 定冠词- the

  • 不定冠词- a/an

紧张

该语法类别与动词相关,可以定义为动作时间的语言指示。时态建立了一种关系,因为它表示事件相对于说话时刻的时间。概括地说,它有以下三种类型 -

  • 现在时- 表示当前时刻发生的动作。例如,拉姆工作很努力。

  • 过去时- 表示当前时刻之前发生的动作。例如,下雨了。

  • 将来时- 表示当前时刻之后发生的动作。例如,会下雨。

方面

该语法类别可以定义为对事件的看法。它可以是以下类型 -

  • 完美的方面- 该观点在方面被视为整体和完整。例如,英语中的简单过去时“昨天我遇见了我的朋友”在方面是完成时,因为它认为事件是完整的和整体的。

  • 不完美的方面- 该观点被认为是持续的和不完整的方面。例如,英语中的现在分词时态“我正在解决这个问题”在体态上是不完善的,因为它认为该事件不完整且正在进行。

情绪

这个语法类别有点难以定义,但可以简单地表述为说话者对他/她所谈论内容的态度的指示。这也是动词的语法特征。它与语法时态和语法方面不同。语气的例子有指示语、疑问语、祈使语、命令语、虚拟语气、潜在语气、祈求语气、动名词和分词。

协议

它也被称为Concordion。当一个单词依赖于与其相关的其他单词而发生变化时,就会发生这种情况。换句话说,它涉及使不同单词或词性之间某些语法类别的值一致。以下是基于其他语法类别的协议 -

  • 基于人称的协议- 这是主语和动词之间的协议。例如,我们总是使用“我是”和“他是”,但从不使用“他是”和“我是”。

  • 基于数字的协议- 该协议是主语和动词之间的协议。在这种情况下,第一人称单数、第二人称复数等都有特定的动词形式。例如,第一人称单数:我真的,第二人称复数:我们真的,第三人称单数:男孩唱歌,第三人称复数:男孩唱歌。

  • 基于性别的协议- 在英语中,代词和先行词之间存在性别协议。例如,他到达了目的地。船到达了目的地。

  • 基于案例的协议- 这种协议不是英语的显着特征。例如,谁先来——他还是他的妹妹?

口语语法

书面英语和口语语法有许多共同特征,但除此之外,它们在许多方面也存在差异。以下特征区分了英语口语和书面语法 -

缺陷与修复

这一显着特征使得口语和书面英语语法彼此不同。它单独称为不流畅现象,统称为修复现象。不流畅包括使用以下内容 -

  • 填充词- 有时在句子之间,我们使用一些填充词。它们被称为填充暂停的填充。此类单词的示例有 uh 和 um。

  • 补述和修复- 句子之间重复的单词片段称为补述。同一段中,改变的词叫修复。考虑以下示例来理解这一点 -

ABC 航空公司是否提供单程航班呃单程票价 5000 卢比?

在上面的句子中,单程航班是一种补述,单程航班是一种修复。

重新启动

填充器暂停后,会重新启动。例如,在上面的句子中,当说话者开始询问单程航班然后停下来,通过填充暂停来纠正自己,然后重新开始询问单程票价时,就会发生重新开始。

单词片段

有时我们会用较小的单词片段来说出句子。例如,哇——现在几点了?这里单词w-wha是单词片段。