TIKA - 文件格式


Tika 支持的文件格式

下表显示了 Tika 支持的文件格式。

文件格式 封装库 蒂卡课堂
XML org.apache.tika.parser.xml XML解析器
超文本标记语言 org.apache.tika.parser.html 它使用Tagsoup库 Html解析器
MS-Office 复合文档 Ole2 至 2007 ooxml 2007 及以后

org.apache.tika.parser.microsoft

org.apache.tika.parser.microsoft.ooxml 它使用 Apache Poi 库

Office解析器(ole2)

OOXML 解析器 (ooxml)

OpenDocument 格式 openoffice org.apache.tika.parser.odf OpenOffice解析器
便携式文档格式(PDF) org.apache.tika.parser.pdf 并且此包使用 Apache PdfBox 库 PDF解析器
电子出版物格式(数字图书) org.apache.tika.parser.epub Epub解析器
富文本格式 org.apache.tika.parser.rtf RTF解析器
压缩和打包格式 org.apache.tika.parser.pkg,该包使用通用压缩库 PackageParser 和 CompressorParser 及其子类
文本格式 org.apache.tika.parser.txt TXT解析器
Feed 和聚合格式 org.apache.tika.parser.feed Feed解析器
音频格式 org.apache.tika.parser.audio 和 org.apache.tika.parser.mp3 AudioParser MidiParser Mp3- 用于 mp3parser
图像解析器 org.apache.tika.parser.jpeg JpegParser-用于 jpeg 图像
视频格式 org.apache.tika.parser.mp4 和 org.apache.tika.parser.video 该解析器内部使用简单算法来解析 flash 视频格式 Mp4parser FlvParser
java 类文件和 jar 文件 org.apache.tika.parser.asm 类解析器 压缩器解析器
Mobx格式(电子邮件) org.apache.tika.parser.mbox MobX解析器
CAD 格式 org.apache.tika.parser.dwg DWG解析器
字体格式 org.apache.tika.parser.font TrueType解析器
可执行程序和库 org.apache.tika.parser.executable 可执行解析器