PHP前端开发

Ubuntu下使用python读取doc和docx文档的内容方法

百变鹏仔 2小时前 #Python
文章标签 文档

这篇文章主要介绍了关于ubuntu下使用python读取doc和docx文档的内容方法,有着一定的参考价值,现在分享给大家,有需要的朋友可以参考一下

读取docx文档

使用的包是python-docx

1. 安装python-docx包

sudo pip install python-docx

立即学习“Python免费学习笔记(深入)”;

2. 使用python-docx包读取数据

#encoding:utf8 import docx doc = docx.Document('test.docx') docText = ''.join([paragraph.text for paragraph in doc.paragraphs]) #print(docText)

立即学习“Python免费学习笔记(深入)”;

python-docx这个包是不能处理doc文档的,要读取doc文档内容的话需要使用antiword这个工具。

读取doc文档

1. 到网站下载antiword。

2. 下载完毕之后解压,在解压得到的文件夹中依次运行make和make install命令。

3. 使用antiword读取doc文档内容

#encoding:utf8 import subprocess word = 'test.doc' output = subprocess.check_output(['antiword',word]) print(output)

立即学习“Python免费学习笔记(深入)”;