TIKA - 环境
本章将带您完成在 Windows 和 Linux 上设置 Apache Tika 的过程。安装 Apache Tika 时需要进行用户管理。
系统要求
JDK | Java SE 2 JDK 1.6 或更高版本 |
记忆 | 1 GB RAM(推荐) |
磁盘空间 | 无最低要求 |
操作系统版本 | Windows XP或以上、Linux |
第 1 步:验证 Java 安装
要验证 Java 安装,请打开控制台并执行以下java命令。
操作系统 | 任务 | 命令 |
---|---|---|
Windows | 打开命令控制台 | \>java –版本 |
Linux | 打开命令终端 | $java –版本 |
如果 Java 已正确安装在您的系统上,那么您应该获得以下输出之一,具体取决于您正在使用的平台。
操作系统 | 输出 |
---|---|
Windows | Java版本“1.7.0_60”
Java (TM) SE 运行时环境(内部版本 1.7.0_60-b19) Java Hotspot (TM) 64 位服务器 VM(内部版本 24.60-b09,混合模式) |
卢尼克斯 | java版本“1.7.0_25” 打开JDK运行环境(rhel-2.3.10.4.el6_4-x86_64) 打开 JDK 64 位服务器 VM(内部版本 23.7-b01,混合模式) |
我们假设本教程的读者在继续学习本教程之前已在其系统上安装了 Java 1.7.0_60。
如果您没有 Java SDK,请从https://www.oracle.com/technetwork/java/javase/downloads/index.html 下载其当前版本并进行安装。
第二步:设置Java环境
设置 JAVA_HOME 环境变量以指向计算机上安装 Java 的基本目录位置。例如,
操作系统 | 输出 |
---|---|
Windows | 将环境变量 JAVA_HOME 设置为 C:\ProgramFiles\java\jdk1.7.0_60 |
Linux | 导出 JAVA_HOME = /usr/local/java-current |
将 Java 编译器位置的完整路径附加到系统路径。
操作系统 | 输出 |
---|---|
Windows | 追加字符串;C:\Program Files\Java\jdk1.7.0_60\bin 到系统变量 PATH 的末尾。 |
Linux | 导出路径 = $PATH:$JAVA_HOME/bin/ |
如上所述,从命令提示符验证命令 java-version。
步骤 3:设置 Apache Tika 环境
程序员可以使用以下命令将 Apache Tika 集成到他们的环境中
- 命令行,
- 蒂卡API,
- Tika 的命令行界面 (CLI),
- Tika 的图形用户界面 (GUI),或
- 源代码。
对于任何这些方法,首先,您必须下载 Tika 的源代码。
您可以在 https://Tika.apache.org/download.html 找到 Tika 的源代码,其中您可以找到两个链接 -
apache-tika-1.6-src.zip - 它包含 Tika 的源代码,以及
Tika -app-1.6.jar - 这是一个包含 Tika 应用程序的 jar 文件。
下载这两个文件。Tika官网截图如下所示。
下载文件后,设置 jar 文件tika-app-1.6.jar的类路径。添加jar文件的完整路径,如下表所示。
操作系统 | 输出 |
---|---|
Windows | 将字符串“C:\jars\Tika-app-1.6.jar”附加到用户环境变量 CLASSPATH |
Linux | 导出 CLASSPATH = $CLASSPATH - /usr/share/jars/Tika-app-1.6.tar - |
Apache 提供了 Tika 应用程序,这是一个使用 Eclipse 的图形用户界面 (GUI) 应用程序。
Tika-Maven 使用 Eclipse 构建
打开 eclipse 并创建一个新项目。
如果您的 Eclipse 中没有 Maven,请按照给定的步骤进行设置。
打开链接 https://wiki.eclipse.org/M2E_updatesite_and_gittags。在那里您可以找到表格格式的 m2e 插件版本
选择最新版本并将 url 的路径保存在 p2 url 列中。
现在重新访问 eclipse,在菜单栏中单击Help,然后从下拉菜单中选择Install New Software
单击“添加”按钮,输入任何所需的名称(因为它是可选的)。现在将保存的 URL 粘贴到“位置”字段中。
将添加一个新插件,其名称为您在上一步中选择的名称,选中其前面的复选框,然后单击“下一步”。
继续安装。完成后,重新启动 Eclipse。
现在右键单击该项目,然后在配置选项中选择“转换为maven项目”。
将出现一个用于创建新 pom 的新向导。输入 Group Id 为 org.apache.tika,输入最新版本的 Tika,选择打包为jar,然后单击Finish。
Maven项目已成功安装,并且您的项目已转换为Maven。现在您必须配置 pom.xml 文件。
配置 XML 文件
从https://mvnrepository.com/artifact/org.apache.tika获取 Tika maven 依赖项
下图是 Apache Tika 的完整 Maven 依赖关系。
<dependency> <groupId>org.apache.Tika</groupId> <artifactId>Tika-core</artifactId> <version>1.6</version> <groupId>org.apache.Tika</groupId> <artifactId> Tika-parsers</artifactId> <version> 1.6</version> <groupId> org.apache.Tika</groupId> <artifactId>Tika</artifactId> <version>1.6</version> <groupId>org.apache.Tika</groupId> < artifactId>Tika-serialization</artifactId> < version>1.6< /version> < groupId>org.apache.Tika< /groupId> < artifactId>Tika-app< /artifactId> < version>1.6< /version> <groupId>org.apache.Tika</groupId> <artifactId>Tika-bundle</artifactId> <version>1.6</version> </dependency>