时间:2021-05-02
gImageReader 是一个 GUI 工具,用于在 Linux 中利用 Tesseract OCR 引擎从图像和 PDF 文件中提取文本。
gImageReader是Tesseract 开源 OCR 引擎的一个前端。Tesseract 最初是由 HP 公司开发的,然后在 2006 年开源。
基本上,OCR(光学字符识别)引擎可以让你从图片或文件(PDF)中扫描文本。默认情况下,它可以检测几种语言,还支持通过 Unicode 字符扫描。
然而,Tesseract 本身是一个没有任何 GUI 的命令行工具。因此,gImageReader 就来解决这点,它可以让任何用户使用它从图像和文件中提取文本。
让我重点介绍一些有关它的内容,同时说下我在测试期间的使用经验。
为了简化事情,gImageReader 在从 PDF 文件或包含任何类型文本的图像中提取文本时非常方便。
无论你是需要它来进行拼写检查还是翻译,它都应该对特定的用户群体有用。
以列表总结下功能,这里是你可以用它做的事情:
注意:你需要安装 Tesseract 语言包,才能从软件管理器中的图像/文件中进行检测。
你可以在一些 Linux 发行版如 Fedora 和 Debian 的默认仓库中找到 gImageReader。
对于 Ubuntu,你需要添加一个 PPA,然后安装它。要做到这点,下面是你需要在终端中输入的内容:
你也可以从 openSUSE 的构建服务中找到它,Arch Linux 用户可在AUR中找到。
所有的仓库和包的链接都可以在他们的GitHub 页面中找到。
当你需要从图像中提取文本时,gImageReader 是一个相当有用的工具。当你尝试从 PDF 文件中提取文本时,它的效果非常好。
对于从智能手机拍摄的图片中提取,检测很接近,但有点不准确。也许当你进行扫描时,从文件中识别字符可能会更好。
所以,你需要亲自尝试一下,看看它是否对你而言工作良好。我在 Linux Mint 20.1(基于 Ubuntu 20.04)上试过。
我只遇到了一个从设置中管理语言的问题,我没有得到一个快速的解决方案。如果你遇到此问题,那么可能需要对其进行故障排除,并进一步了解如何解决该问题。
除此之外,它工作良好。
试试吧,让我知道它是如何为你服务的!
原文地址:https://linux.cn/article-13205-1.html
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
处理pdf文档第一、从文本中提取文本第二、创建PDF两种方法#使用PdfFileWriterimportPyPDF2pdfFiles=[]forfilename
极强PDF转换器怎么从PDF文件中提取图片?想要从PDF文件中提取图片,方法其实相当简单,大家可以通过使用极强PDF转换器来获取想要的图片,具体应该如何操作呢?
很多时候在使用Linux的shell时,我们都需要对文件名或目录名进行处理,通常的操作是由路径中提取出文件名,从路径中提取出目录名,提取文件后缀名等等。例如,从
1、应用场景:从一份html文件中或从String(是html内容)中提取纯文本,去掉网页标签;2、代码一:replaceAll搞定//从html中提取纯文本p
从Linux系统的存档中提取文件没有拔牙那么痛苦,但有时看起来更复杂。在这篇文章中,我们将看看如何轻松地从Linux系统中可能遇到的几乎所有类型的存档中提取文件