Apache POI Word - 概述


很多时候,需要软件应用程序来生成 Microsoft Word 文件格式的参考文档。有时,应用程序甚至需要接收 Word 文件作为输入数据。

任何想要生成 MS-Office 文件作为输出的 Java 程序员都必须使用预定义的只读 API 来执行此操作。

什么是 Apache POI?

Apache POI 是一种流行的 API,允许程序员使用 Java 程序创建、修改和显示 MS-Office 文件。它是由 Apache Software Foundation 开发和分发的一个开源库,用于使用 Java 程序设计或修改 MS-Office 文件。它包含将用户输入数据或文件解码为 MS-Office 文档的类和方法。

Apache POI 的组件

Apache POI 包含可处理 MS-Office 的所有 OLE2 复合文档的类和方法。该 API 的组件列表如下:

  • POIFS(不良混淆实现文件系统) - 该组件是所有其他 POI 元素的基本因素。它用于显式读取不同的文件。

  • HSSF(可怕的电子表格格式) - 用于读取和写入 MS-Excel 文件的 .xls 格式。

  • XSSF(XML 电子表格格式) - 用于 MS-Excel 的 .xlsx 文件格式。

  • HPSF(可怕的属性集格式) - 用于提取 MS-Office 文件的属性集。

  • HWPF(可怕的字处理器格式) - 用于读取和写入 MS-Word 的 .doc 扩展文件。

  • XWPF(XML 字处理器格式) - 用于读取和写入MS-Word 的.docx扩展文件。

  • HSLF(可怕的幻灯片布局格式) - 用于阅读、创建和编辑 PowerPoint 演示文稿。

  • HDGF(可怕的图表格式) - 它包含 MS-Visio 二进制文件的类和方法。

  • HPBF(Horrible PuBlisher 格式) - 用于读取和写入 MS-Publisher 文件。

本教程将指导您完成使用 Java 处理 MS-Word 文件的过程。因此,讨论仅限于 HWPF 和 XWPF 组件。

注意- POI 的旧版本支持二进制文件格式,例如 DOC、XLS、PPT 等。从版本 3.5 开始,POI 支持 MS-OFFICE 的 OOXML 文件格式,如 DOCX、XLSX、PPTX 等。