基于Python获取docx/doc文件内容代码解析

时间：2021-05-22

这篇文章主要介绍了基于Python获取docx/doc文件内容代码解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

整体思路：

下载文件并修改后缀为ｚｉｐ文件，解压ｚｉｐ文件，所要获取的内容在固定的文件夹下：work/temp/word/document.xml

所用包，全部是ｐｙｔｈｏｎ自带，不需要额外下载安装．

# encoding:utf-8import osimport reimport requestsimport zipfileimport xml.dom.minidomnewfile = 'test.docx'def create(newfile): """下载docx文件，并修改后缀为zip""" res = requests.get('https://www.cqjbfy.gov.cn/publiccenter/splc/mb/splc_gginfo.asp?newsid=28949') if not os.path.exists(newfile): f = open(newfile, 'wb') for chunk in res.iter_content(100000): f.write(chunk) f.close() os.rename(newfile, 'test.zip') 这种方法发现只能解决一部分doc文件,具体原因不得而知,有明白的欢迎留言 # 将doc/docx文件压缩成ｚｉｐ文件 #pf = zipfile.ZipFile('test.zip', 'w', zipfile.ZIP_STORED)　 #pf.write(newfile)def get_txt(): """解压zip，并在work/temp/word/document.xml获取文本内容，进行正则替换标签等操作""" f = zipfile.ZipFile('test.zip', 'r') for file in f.namelist(): f.extract(file, "temp/") f = xml.dom.minidom.parse('./temp/word/document.xml') txt = re.sub(r'</w:t></w:r></w:p>', '\n', f.toxml()) print re.sub(r'<.*?>', '', txt)if __name__ == '__main__': create(newfile) get_txt()

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。

声明：本页内容来源网络，仅供用户参考；我单位不保证亦不表示资料全面及准确无误，也不保证亦不表示这些资料为最新信息，如因任何原因，本网内容或者用户因倚赖本网内容造成任何损失或损害，我单位将不会负任何法律责任。如涉及版权问题，请提交至online#300.cn邮箱联系删除。

基于Python获取docx/doc文件内容代码解析

相关文章

Python中docx2txt库的使用说明

Python使用python-docx读写word文档

用python处理MS Word的实例讲解

word是doc还是docx

word文件名后缀