如何使用Tesseract和/或Poppler将PDF图像或图像转换为文本?
Python 3.6.1 Mac OSX
关于Tesseract,我已经尝试了很多不同的样本/模板代码,我已经在网上找到了PDF - >文本和图像 - >文本。 他们似乎都没有工作。
请让我知道,如果你知道一个可用的代码或一个带有Tesseract,Poppler或两者的好教程的网站。
Pytesser似乎过时了。 Magick似乎是一个仅限Windows的程序。 魔杖似乎也没有帮助。
Tesseract-OCR是我正在尝试使用的,但我不知道如何为它设置代码,并且无法找到可行的良好教程。 我只能找到安装教程。
我可以使用Poppler for PDF-> Text ,但遇到了需要提取的PDF图像。 我假设我需要一个单独的代码来获取PDF并将其转换为图像文件,然后将图像转换为文本文件(Teseseract)。 或者我可以使用Poppler的PDFImage,我不知道如何编码(这里的帮助也会非常感谢)。
我的Poppler PDF到Text的代码是:
import csv, re, requests, subprocess, sys
url = (
'http://gwinnetttaxcommissioner.publicaccessnow.com/'
'Portals/0/PDF/Excess%20funds%20all%20years%20-%20rev02232017.pdf'
)
r = requests.get(url, headers={'user-agent': 'Mozilla/5.0'})
filename = url.split('/')[-1].replace('%20', ' ')
with open(filename, 'wb') as fh:
fh.write(r.content)
subprocess.call(['pdftotext', '-layout', filename])
writer = csv.writer(sys.stdout)
with open(filename[:-3] + 'txt') as fh:
text = fh.read()
for line in re.findall('(?m)^d.+d$', text):
writer.writerow(re.split(r' {3,}', line))
它效果很好。
我无法弄清楚如何格式化Poppler的PDFImage。
另外,如何在Tesseract中实现这样的功能,因为它是最好的OCR之一?
链接地址: http://www.djcxy.com/p/96743.html上一篇: How to convert a PDF image or an image to text using Tesseract and/or Poppler?