NLP - 语言资源
在本章中,我们将了解自然语言处理中的语言资源。
语料库
语料库是在自然交流环境中生成的一组大型且结构化的机器可读文本。它的复数是语料库。它们可以通过不同的方式导出,例如最初的电子文本、口语转录和光学字符识别等。
语料库设计要素
语言是无限的,但语料库的大小必须是有限的。由于语料库的大小是有限的,我们需要采样并按比例包含各种文本类型,以确保良好的语料库设计。
现在让我们了解语料库设计的一些重要元素 -
语料库代表性
代表性是语料库设计的一个决定性特征。两位伟大的研究人员 - Leech 和 Biber 的以下定义将帮助我们理解语料库的代表性 -
根据 Leech(1991)的说法, “如果基于语料库内容的发现可以推广到所述语言品种,则语料库被认为代表了它应该代表的语言品种”。
Biber (1993) 认为, “代表性是指样本包含总体变异性的程度”。
这样,我们可以得出结论,语料库的代表性由以下两个因素决定:
平衡- 语料库中包含的流派范围
采样- 如何选择每种流派的块。
语料库平衡
语料库设计的另一个非常重要的元素是语料库平衡——语料库中包含的流派范围。我们已经研究过,通用语料库的代表性取决于语料库的平衡程度。平衡的语料库涵盖了广泛的文本类别,这些文本类别应该是语言的代表。我们没有任何可靠的科学方法来衡量平衡,但最好的估计和直觉在这方面发挥作用。换句话说,我们可以说可接受的平衡仅由其预期用途决定。
采样
语料库设计的另一个重要元素是采样。语料库的代表性和平衡性与采样密切相关。这就是为什么我们可以说采样在语料库建设中是不可避免的。
Biber(1993)认为,“构建语料库时首先要考虑的一些因素涉及整体设计:例如,包含的文本类型、文本数量、特定文本的选择、文本中文本样本的选择” ,以及文本样本的长度。其中每一个都涉及抽样决策,无论是有意识的还是无意识的。”
在获得代表性样本时,我们需要考虑以下因素 -
抽样单位- 指需要抽样的单位。例如,对于书面文本,采样单位可以是报纸、期刊或书籍。
抽样框- 所有抽样单位的列表称为抽样框。
人口- 它可以被称为所有抽样单位的集合。它是根据语言产生、语言接受或语言作为产品来定义的。
语料库大小
语料库设计的另一个重要元素是它的大小。语料库应该有多大?这个问题没有具体的答案。语料库的大小取决于其预期目的以及一些实际考虑因素,如下 -
用户预期的查询类型。
用户研究数据所使用的方法。
数据源的可用性。
随着技术的进步,语料库的规模也随之增大。下面的比较表将帮助您了解语料库大小的工作原理 -
年 | 语料库名称 | 大小(以字为单位) |
---|---|---|
20 世纪 60 年代 - 70 年代 | 棕色和LOB | 100万字 |
20世纪80年代 | 伯明翰语料库 | 2000万字 |
20世纪90年代 | 英国国家语料库 | 1 亿字 |
21世纪初 | 英语银行语料库 | 6.5 亿字 |
在后续部分中,我们将查看一些语料库示例。
树库语料库
它可以被定义为注释句法或语义句子结构的语言解析文本语料库。Geoffrey Leech 创造了“树库”这个术语,它表示表示语法分析的最常见方式是通过树结构。一般来说,树库是在语料库的顶部创建的,语料库已经用词性标签进行了注释。
TreeBank 语料库的类型
语义树库和句法树库是语言学中最常见的两种树库类型。现在让我们更多地了解这些类型 -
语义树库
这些树库使用句子语义结构的形式表示。它们的语义表示深度各不相同。机器人命令树库、Geoquery、格罗宁根意义库、RoboCup 语料库是语义树库的一些示例。
句法树库
与语义树库相反,句法树库系统的输入是通过解析树库数据的转换获得的形式语言的表达式。此类系统的输出是基于谓词逻辑的含义表示。到目前为止,已经创建了不同语言的各种句法树库。例如,宾夕法尼亚阿拉伯语树库、哥伦比亚阿拉伯语树库是用阿拉伯语创建的句法树库。用中文创建的Sininca句法树库。Lucy、Susane和BLLIP用英语创建的《华尔街日报》句法语料库。
TreeBank语料库的应用
以下是 TreeBanks 的一些应用 -
在计算语言学中
如果我们谈论计算语言学,那么 TreeBanks 的最佳用途就是设计最先进的自然语言处理系统,例如词性标注器、解析器、语义分析器和机器翻译系统。
在语料库语言学中
就语料库语言学而言,树库的最佳用途是研究句法现象。
理论语言学和心理语言学
树库在理论和心理语言学中的最佳用途是交互证据。
PropBank语料库
PropBank 更具体地称为“命题库”,是一个语料库,用口头命题及其论点进行注释。语料库是面向动词的资源;这里的注释与句法层面的关系更为密切。科罗拉多大学博尔德分校语言系的 Martha Palmer 等人开发了它。我们可以使用术语 PropBank 作为一个普通名词,指代任何用命题及其论点注释的语料库。
在自然语言处理(NLP)领域,PropBank项目发挥了非常重要的作用。它有助于语义角色标记。
VerbNet(越南)
VerbNet(VN) 是英语中存在的分层领域独立且最大的词汇资源,包含有关其内容的语义和句法信息。VN 是一个覆盖范围广泛的动词词典,具有到其他词汇资源(例如 WordNet、Xtag 和 FrameNet)的映射。它被组织成动词类,通过细化和添加子类来扩展莱文类,以实现类成员之间的句法和语义连贯性。
每个 VerbNet (VN) 类包含 -
一组句法描述或句法框架
用于描述诸如及物、不及物、介词短语、结果和大量素质交替等结构的论证结构的可能表面实现。
一组语义描述,例如动物、人类、组织
对于约束,可以施加参数允许的主题角色的类型以及进一步的限制。这将有助于表明可能与主题角色相关的成分的句法性质。
词网
WordNet 由普林斯顿大学创建,是一个英语词汇数据库。它是 NLTK 语料库的一部分。在 WordNet 中,名词、动词、形容词和副词被分组为认知同义词集,称为同义词集。所有同义词集都借助概念语义和词汇关系联系起来。它的结构使其对于自然语言处理(NLP)非常有用。
在信息系统中,WordNet 用于各种目的,例如词义消歧、信息检索、自动文本分类和机器翻译。WordNet 最重要的用途之一是找出单词之间的相似性。对于此任务,各种算法已在各种包中实现,例如 Perl 中的相似性、Python 中的 NLTK 和 Java 中的 ADW。