当前位置:博客首页>>Linux >> 阅读正文

使用antiword读取word文档

作者: 郑晓 分类: Linux, Python 发布于: 2017-03-07 00:08 浏览(3,958) 评论(3)


antiword是linux及其他RISC OS下免费的ms word文档读取器。使用它可以很方便的在Linux中读取word文档并输出为纯文本字符串。

下载地址:http://www.winfield.demon.nl

下载后解压、编译安装:

tar -zxvf antiword-0.37.tar.gz
cd antiword-0.37
make
make install

默认安装到当前账户下的bin目录中。

使用:
终端中

/home/pi/bin/antiword antiword-test.doc

其他语言中通过各自执行系统命令的方式来执行,比如Python中:

import subprocess
word_file = "antiword-test.doc"
content   = subprocess.check_output(["/home/pi/antiword", word_file])
print content

比如我有个doc文件是这样的:

执行结果类似这样:

其中的非字符串部分被过滤了。

       

本文采用知识共享署名-非商业性使用 3.0 中国大陆许可协议进行许可,转载时请注明出处及相应链接。

本文永久链接: https://www.zh30.com/antiword-read-word-doc.html

使用antiword读取word文档:目前有3 条留言

用户评论头像 php读取word求助发表于 2018年08月02日 15:00[回复]

博主,你好!php读取word求助,按照这个教程,读取出来的word是纯文本的,能否保留原排版格式 呢

    用户评论头像 郑晓发表于 2018年08月02日 15:15[回复]

    刚测了下,这个工具貌似不能带格式输出。

    用户评论头像 郑晓发表于 2018年08月02日 16:06[回复]

    你可以看看这篇,unoconv-convert-document-openoffice.html