TIKA - 文件格式
Tika 支持的文件格式
下表显示了 Tika 支持的文件格式。
文件格式 | 封装库 | 蒂卡课堂 |
---|---|---|
XML | org.apache.tika.parser.xml | XML解析器 |
超文本标记语言 | org.apache.tika.parser.html 它使用Tagsoup库 | Html解析器 |
MS-Office 复合文档 Ole2 至 2007 ooxml 2007 及以后 | org.apache.tika.parser.microsoft org.apache.tika.parser.microsoft.ooxml 它使用 Apache Poi 库 |
Office解析器(ole2) OOXML 解析器 (ooxml) |
OpenDocument 格式 openoffice | org.apache.tika.parser.odf | OpenOffice解析器 |
便携式文档格式(PDF) | org.apache.tika.parser.pdf 并且此包使用 Apache PdfBox 库 | PDF解析器 |
电子出版物格式(数字图书) | org.apache.tika.parser.epub | Epub解析器 |
富文本格式 | org.apache.tika.parser.rtf | RTF解析器 |
压缩和打包格式 | org.apache.tika.parser.pkg,该包使用通用压缩库 | PackageParser 和 CompressorParser 及其子类 |
文本格式 | org.apache.tika.parser.txt | TXT解析器 |
Feed 和聚合格式 | org.apache.tika.parser.feed | Feed解析器 |
音频格式 | org.apache.tika.parser.audio 和 org.apache.tika.parser.mp3 | AudioParser MidiParser Mp3- 用于 mp3parser |
图像解析器 | org.apache.tika.parser.jpeg | JpegParser-用于 jpeg 图像 |
视频格式 | org.apache.tika.parser.mp4 和 org.apache.tika.parser.video 该解析器内部使用简单算法来解析 flash 视频格式 | Mp4parser FlvParser |
java 类文件和 jar 文件 | org.apache.tika.parser.asm | 类解析器 压缩器解析器 |
Mobx格式(电子邮件) | org.apache.tika.parser.mbox | MobX解析器 |
CAD 格式 | org.apache.tika.parser.dwg | DWG解析器 |
字体格式 | org.apache.tika.parser.font | TrueType解析器 |
可执行程序和库 | org.apache.tika.parser.executable | 可执行解析器 |