TIKA - 参考 API
用户可以使用 Tika 门面类将 Tika 嵌入到他们的应用程序中。它有方法来探索 Tika 的所有功能。由于它是一个外观类,Tika 抽象了其功能背后的复杂性。除此之外,用户还可以在其应用程序中使用 Tika 的各种类。
蒂卡级(立面)
这是Tika库中最突出的类,遵循门面设计模式。因此,它抽象了所有内部实现并提供了访问 Tika 功能的简单方法。下表列出了此类的构造函数及其描述。
包- org.apache.tika
类- 蒂卡
先生。 | 构造函数及描述 |
---|---|
1 |
提卡 () 使用默认配置并构造 Tika 类。 |
2 |
Tika(探测器探测器) 通过接受检测器实例作为参数来创建 Tika 外观 |
3 |
Tika(Detector检测器、Parser解析器) 通过接受检测器和解析器实例作为参数来创建 Tika 外观。 |
4 |
Tika(Detector检测器、Parser解析器、Translator翻译器) 通过接受检测器、解析器和翻译器实例作为参数来创建 Tika 外观。 |
5 |
蒂卡(TikaConfig 配置) 通过接受 TikaConfig 类的对象作为参数来创建 Tika 外观。 |
方法和说明
以下是 Tika 门面类的重要方法 -
先生。 | 方法与说明 |
---|---|
1 |
解析ToString(文件文件) 此方法及其所有变体解析作为参数传递的文件,并以字符串格式返回提取的文本内容。默认情况下,该字符串参数的长度是有限的。 |
2 |
int getMaxStringLength () 返回 parseToString 方法返回的字符串的最大长度。 |
3 |
无效setMaxStringLength(int maxStringLength) 设置 parseToString 方法返回的字符串的最大长度。 |
4 |
读者解析(文件文件) 此方法及其所有变体解析作为参数传递的文件,并以 java.io.reader 对象的形式返回提取的文本内容。 |
5 |
字符串检测(InputStream流、Metadata元数据) 此方法及其所有变体接受 InputStream 对象和 Metadata 对象作为参数,检测给定文档的类型,并将文档类型名称作为 String 对象返回。该方法抽象了 Tika 使用的检测机制。 |
6 |
字符串翻译(输入流文本,字符串目标语言) 此方法及其所有变体接受 InputStream 对象和一个表示我们希望翻译文本的语言的字符串,并将给定的文本翻译为所需的语言,尝试自动检测源语言。 |
解析器接口
这是 Tika 包的所有解析器类实现的接口。
包- org.apache.tika.parser
接口- 解析器
方法和说明
以下是 Tika Parser 接口的重要方法 -
先生。 | 方法与说明 |
---|---|
1 |
解析(InputStream 流、ContentHandler 处理程序、Metadata 元数据、ParseContext 上下文) 该方法将给定文档解析为一系列 XHTML 和 SAX 事件。解析后,它将提取的文档内容放置在ContentHandler类的对象中,将元数据放置在Metadata类的对象中。 |
元数据类
该类实现了各种接口,例如 CreativeCommons、Geographic、HttpHeaders、Message、MSOffice、ClimateForcast、TIFF、TikaMetadataKeys、TikaMimeKeys、Serializable,以支持各种数据模型。下表列出了此类的构造函数和方法及其说明。
包- org.apache.tika.metadata
类- 元数据
先生。 | 构造函数及描述 |
---|---|
1 |
元数据() 构造一个新的空元数据。 |
先生。 | 方法与说明 |
---|---|
1 |
添加(属性属性,字符串值) 将元数据属性/值映射添加到给定文档。使用此函数,我们可以将值设置为属性。 |
2 |
添加(字符串名称,字符串值) 将元数据属性/值映射添加到给定文档。使用此方法,我们可以为文档的现有元数据设置新的名称值。 |
3 |
字符串获取(属性属性) 返回给定元数据属性的值(如果有)。 |
4 |
字符串获取(字符串名称) 返回给定元数据名称的值(如果有)。 |
5 |
日期 getDate(属性属性) 返回日期元数据属性的值。 |
6 |
String[] getValues(属性属性) 返回元数据属性的所有值。 |
7 |
String[] getValues(字符串名称) 返回给定元数据名称的所有值。 |
8 |
字符串[]名称() 返回元数据对象中所有元数据元素的名称。 |
9 |
设置(属性属性,日期日期) 设置给定元数据属性的日期值 |
10 |
set(属性属性, String[] 值) 为元数据属性设置多个值。 |
语言标识符类
此类标识给定内容的语言。下表列出了此类的构造函数及其描述。
包- org.apache.tika.language
类- 语言标识符
先生。 | 构造函数及描述 |
---|---|
1 |
LanguageIdentifier(LanguageProfile配置文件) 实例化语言标识符。在这里您必须传递一个 LanguageProfile 对象作为参数。 |
2 |
语言标识符(字符串内容) 此构造函数可以通过传递文本内容中的字符串来实例化语言标识符。 |
先生。 | 方法与说明 |
---|---|
1 |
字符串获取语言() 返回指定给当前 LanguageIdentifier 对象的语言。 |