当前位置:博客首页>>Linux >> 阅读正文

使用antiword读取word文档

作者: 郑晓 分类: Linux, Python 发布于: 2017-03-07 00:08 浏览(2,883) 没有评论


antiword是linux及其他RISC OS下免费的ms word文档读取器。使用它可以很方便的在Linux中读取word文档并输出为纯文本字符串。

下载地址:http://www.winfield.demon.nl

下载后解压、编译安装:

tar -zxvf antiword-0.37.tar.gz
cd antiword-0.37
make
make install

默认安装到当前账户下的bin目录中。

使用:
终端中

/home/pi/bin/antiword antiword-test.doc

其他语言中通过各自执行系统命令的方式来执行,比如Python中:

import subprocess
word_file = "antiword-test.doc"
content   = subprocess.check_output(["/home/pi/antiword", word_file])
print content

比如我有个doc文件是这样的:

执行结果类似这样:

其中的非字符串部分被过滤了。

↓↓微信扫码请我吃份正宗的烤面筋,可带劲啦↓↓
       

本文采用知识共享署名-非商业性使用 3.0 中国大陆许可协议进行许可,转载时请注明出处及相应链接。

本文永久链接: https://www.zh30.com/antiword-read-word-doc.html