- Python-文本处理
- Python-文本处理简介
- Python - 文本处理环境
- Python - 字符串不变性
- Python - 排序行
- Python - 重新格式化段落
- Python - 计算段落中的标记
- Python - 二进制 ASCII 转换
- Python - 字符串作为文件
- Python-向后读取文件
- Python - 过滤重复单词
- Python - 从文本中提取电子邮件
- Python - 从文本中提取 URL
- Python - 漂亮的打印
- Python - 文本处理状态机
- Python - 大写和翻译
- Python - 标记化
- Python - 删除停用词
- Python - 同义词和反义词
- Python - 文本翻译
- Python-单词替换
- Python-拼写检查
- Python - WordNet 接口
- Python - 语料库访问
- Python - 标记单词
- Python - 块和缝隙
- Python - 块分类
- Python-文本分类
- Python-二元组
- Python - 处理 PDF
- Python-处理Word文档
- Python - 读取 RSS 提要
- Python-情感分析
- Python - 搜索和匹配
- Python - 文本修改
- Python-文本换行
- Python-频率分布
- Python-文本摘要
- Python - 词干算法
- Python - 约束搜索
Python-处理Word文档
要阅读 Word 文档,我们需要借助名为 docx 的模块。我们首先安装docx,如下所示。然后编写一个程序,使用docx模块中的不同函数来分段读取整个文件。
我们使用以下命令将 docx 模块添加到我们的环境中。
pip install docx
在下面的示例中,我们通过将每一行附加到一个段落并最终打印出所有段落文本来读取 Word 文档的内容。
import docx def readtxt(filename): doc = docx.Document(filename) fullText = [] for para in doc.paragraphs: fullText.append(para.text) return '\n'.join(fullText) print (readtxt('path\Tutorialspoint.docx'))
当我们运行上面的程序时,我们得到以下输出 -
Tutorials Point originated from the idea that there exists a class of readers who respond better to online content and prefer to learn new skills at their own pace from the comforts of their drawing rooms. The journey commenced with a single tutorial on HTML in 2006 and elated by the response it generated, we worked our way to adding fresh tutorials to our repository which now proudly flaunts a wealth of tutorials and allied articles on topics ranging from programming languages to web designing to academics and much more.
阅读个别段落
我们可以使用paragraphs属性从word文档中读取特定段落。在下面的示例中,我们仅读取 Word 文档中的第二段。
import docx doc = docx.Document('path\Tutorialspoint.docx') print len(doc.paragraphs) print doc.paragraphs[2].text
当我们运行上面的程序时,我们得到以下输出 -
The journey commenced with a single tutorial on HTML in 2006 and elated by the response it generated, we worked our way to adding fresh tutorials to our repository which now proudly flaunts a wealth of tutorials and allied articles on topics ranging from programming languages to web designing to academics and much more.