Lucene - 分析


在我们之前的一章中,我们已经看到 Lucene 使用IndexWriter使用分析器来分析文档,然后根据需要创建/打开/编辑索引。在本章中,我们将讨论分析过程中使用的各种类型的分析器对象和其他相关对象。了解分析过程以及分析器的工作原理将使您深入了解 Lucene 如何对文档进行索引。

以下是我们将在适当时候讨论的对象列表。

编号 类别和描述
1 代币

令牌表示文档中的文本或单词及其元数据等相关详细信息(位置、起始偏移量、结束偏移量、令牌类型及其位置增量)。

2 令牌流

TokenStream是分析过程的输出,它由一系列令牌组成。它是一个抽象类。

3 分析仪

这是每种类型的分析器的抽象基类。

4 空白分析器

该分析器根据空格分割文档中的文本。

5 简单分析器

该分析器根据非字母字符拆分文档中的文本,并将文本转换为小写。

6 停止分析器

该分析器的工作原理与 SimpleAnalyzer 相同,并删除了“a”、“an”、“the”等常见单词。

7 标准分析仪

这是最复杂的分析器,能够处理姓名、电子邮件地址等。它会小写每个标记并删除常用单词和标点符号(如果有)。