时间:2021-05-22
读取docx文档
使用的包是python-docx
1. 安装python-docx包
sudo pip install python-docx2. 使用python-docx包读取数据
#encoding:utf8 import docx doc = docx.Document('test.docx') docText = '\n'.join([paragraph.text for paragraph in doc.paragraphs]) #print(docText)python-docx这个包是不能处理doc文档的,要读取doc文档内容的话需要使用antiword这个工具。
读取doc文档
1. 到网站下载antiword。
2. 下载完毕之后解压,在解压得到的文件夹中依次运行make和make install命令。
3. 使用antiword读取doc文档内容
#encoding:utf8 import subprocess word = 'test.doc' output = subprocess.check_output(['antiword',word]) print(output)以上这篇Ubuntu下使用python读取doc和docx文档的内容方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持。
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
本文实例讲述了C#编程读取文档Doc、Docx及Pdf内容的方法。分享给大家供大家参考。具体分析如下:Doc文档:MicrosoftWord14.0Object
OpenXml读取word内容注意事项1、使用OpenXml读取word内容,word后缀必须是".docx";如果word后缀是".doc"需要转成".doc
python-docx库可用于创建和编辑MicrosoftWord(.docx)文件。官方文档:链接地址备注:doc是微软的专有的文件格式,docx是Micro
DOC是Word2003以前编辑的默认文档格式,而DOCX是Word2007后编辑的默认文档格式。DOC文档可以用所有的Word打开,而DOCX文档只能使用Wo
doc文档是word文档。DOC是Word2003以前编辑的默认文档格式,而DOCX是Word2007后编辑的默认文档格式。DOC文档可以用所有的Word打开,