时间:2021-05-25
有时我们需要对PDF文件进行一些处理,提取文本、合并等。以前我们使用A-PDF Text Extractor免费工具,为什么不自己写一个呢?
现在我们可以使用PDFBox-0.7.3这个开源类库. 下载解包后引用:
复制代码 代码如下:
PDFBox-0.7.3.dll
IKVM.GNU.Classpath.dll
新建一个项目,代码很简单:
复制代码 代码如下:
public static string ParseToTxtStringUsingPDFBox(string filename){
PDDocument doc = PDDocument.load(filename);
PDFTextStripper stripper = new PDFTextStripper();
return stripper.getText(doc);
}
获得这个textString,再把它们写成磁盘文件就可以了, 像这样的方法:
复制代码 代码如下:
public static void WriteToTextFile(string str,string txtpath)
{
if (string.IsNullOrEmpty(txtpath))
throw new ArgumentNullException("Output file path should not be Null");
using (var txtWriter = new StreamWriter(txtpath))
{
txtWriter.Write(str);
txtWriter.Close();
}
}
其它的功能您可以自行发挥了. 这个类库目前支持:
PDF to text extraction
Merge PDF Documents
PDF Document Encryption/Decryption
Lucene Search Engine Integration
Fill in form data FDF and XFDF
Create a PDF from a text file
Create images from PDF pages
Print a PDF
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
以PDF分割合并工具为例,将合并的pdf文件拆分的方法是: 1、首先打开PDF分割合并工具,打开工具后,软件界面中只有分割和合并两个功能,先点击“分割”。
pdfbox:jpg转pdf:/***使用pdfbox将jpg转成pdf*@paramjpgStreamjpg输入流*@parampdfPathpdf文件存储路
处理pdf文档第一、从文本中提取文本第二、创建PDF两种方法#使用PdfFileWriterimportPyPDF2pdfFiles=[]forfilename
python合并文本文件示例代码。python实现两个文本合并employee文件中记录了工号和姓名catemployee.txt:100JasonSmith2
如何解析PDF文件在.NET中从PDF文件里提取文本的几种主要方法有:1、Microsoft的IFilter接口和Adobe的IFilter实现;2、iText