时间:2021-05-23
一、 准备工作
安装对应的库 pip install pdfminer3k pip install pdfminer.six二、部分变量的含义
PDFDocument(pdf文档对象)
PDFPageInterpreter(解释器)
PDFParser(pdf文档分析器)
PDFResourceManager(资源管理器)
PDFPageAggregator(聚合器)
LAParams(参数分析器)
三、PDFMiner类之间的关系
PDFMiner的相关文档(点击跳转)
四、代码实现
#!/usr/bin/env python# -*- coding:utf-8 -*-# datetime:2021/3/17 12:12# software: PyCharm# version: python 3.9.2def changePdfToText(filePath): """ 解析pdf 文本,保存到同名txt文件中 param: filePath: 需要读取的pdf文档的目录 introduced module: from pdfminer.pdfpage import PDFPage from pdfminer.pdfparser import PDFParser from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import PDFPageAggregator from pdfminer.layout import LAParams from pdfminer.pdfdocument import PDFDocument, PDFTextExtractionNotAllowed import os.path """ file = open(filePath, 'rb') # 以二进制读模式打开 # 用文件对象来创建一个pdf文档分析器 praser = PDFParser(file) # 创建一个PDF文档 doc = PDFDocument(praser, '') # praser :上面创建的pdf文档分析器 ,第二个参数是密码,设置为空就好了 # 连接分析器 与文档对象 praser.set_document(doc) # 检测文档是否提供txt转换,不提供就忽略 if not doc.is_extractable: raise PDFTextExtractionNotAllowed # 创建PDf 资源管理器 来管理共享资源 rsrcmgr = PDFResourceManager() # 创建一个PDF设备对象 laparams = LAParams() device = PDFPageAggregator(rsrcmgr, laparams=laparams) # 创建一个PDF解释器对象 interpreter = PDFPageInterpreter(rsrcmgr, device) result = [] # 内容列表 # 循环遍历列表,每次处理一个page的内容 for page in PDFPage.create_pages(doc): interpreter.process_page(page) # 接受该页面的LTPage对象 layout = device.get_result() for x in layout: if hasattr(x, "get_text"): result.append(x.get_text()) fileNames = os.path.splitext(filePath) # 分割 # 以追加的方式打开文件 with open(fileNames[0] + '.txt', 'a', encoding="utf-8") as f: results = x.get_text() # print(results) 这个句可以取消注释就可以在控制台将所有内容输出了 f.write(results) # 写入文件# 调用示例 :# path = u'E:\\1.pdf'# changePdfToText(path)到此这篇关于python读取pdf格式文档的文章就介绍到这了,更多相关python读取pdf文档内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持!
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
python应用文件读取与登录注册功能,具体实现代码如下所示:#!/usr/bin/python3#-*-coding:utf-8-*-#Author:zhw#
问题如果文案格式是统一的,是否可以通过Python格式化输出doc/md的文档?能用代码搞定的,尽力不手工思路首先,数据已经录入库,需要python能读取数据库
纯图pdf和普通pdf区别如下: 1、格式不同: Pdf是可移植文档格式的简称,可移植文档格式。PDF文件格式可以将文本、字体、格式、颜色、图形和图像封装在
本文研究的主要问题时Python读取word文本操作,分享了相关概念和实现代码,具体如下。一,docx模块Python可以利用python-docx模块处理wo
本文实例讲述了Python实现的读取/更改/写入xml文件操作。分享给大家供大家参考,具体如下:原始文档内容(test.xml):Python操作xml代码:#