如何在扫描的文档图像上查找空白字段

2018-06-24 13:01:41

我希望我的应用程序能够以存在为黑白图像文件的形式填充单个字段。表单总是以相同的纸张版本开始，但是当我的应用程序从我的用户那里得到它时，它可能已被多次扫描或传真。因此，我需要的字段不在每个文件的相同位置。

我的用户并不总是从我那里获得空白表格，所以我无法打印稍后可以识别的标记或占位符。

原始空白表格上有文字，但由于它可能已被传真，因此我只有200 dpi的分辨率。文字总是足够让人阅读，但我对OCR持怀疑态度。

我有一些预算，所以我不需要免费的解决方案...让我们说2000美元。

这就是说，我正在考虑

获取OCR解决方案，在我需要的字段上查找文本标签。我认为我没有资源或专业知识来推销自己的产品。我不需要完美的认可，因为我已经知道文字说的是什么。但我确实需要知道X和Y坐标。有没有这样的软件？或者编程比我想象的更容易？

构建或购买软件以识别表单的边缘。从那里，我可以得到我需要的领域的相对位置。我正在考虑用我的扫描仪软件提供的一个小文档图像的虚线。这是一个已知的算法，还是有可用的解决方案？

一些其他方式来识别我需要的领域。尝试谷歌表格填充软件给了我几百场比赛的网页形式，PDF格式等，不做我所需要的。

我对语言不挑剔。我的应用程序运行在Linux上，但如果最好的解决方案是微软，我可以做这个工作。

我会很感激你的想法。

如果我理解正确，表单总是相同的，但由于复印/传真可能会被移位，缩放或轻微旋转。在这种情况下，您的问题是图像注册之一：找到最佳的刚性转换，使用户的表单与您的“模型”表单形成一个表单，其中您知道感兴趣的区域的位置。一旦你知道了转换，你就可以计算用户表单中该字段的位置。

有许多图像配准算法，通常针对诸如对齐大脑的MR图像的应用而开发。它们在计算上是昂贵的并且需要统计先验。幸运的是，你的情况更容易：你需要做的就是围绕用户表单的内容绘制一个矩形。坐标下降应该起作用。你需要一些容忍噪音（表格外的垃圾）。

以下是一些可用的OCR解决方案的总结（不包括开放源代码）：http://googlesystem.blogspot.com/2007/04/open-source-ocr-software-sponsored-by.html

刚性注册可能不够。用户可以修改模板表单的布局和格式，例如更改字体，更改复选框或输入框的位置，在不同的换行位置打破段落等。这些差异比纯粹处理更复杂移位，旋转或缩放转换。此外，如果你的图像是二值图像（黑白），我不认为这些医学图像配准算法（在灰度图像上工作）将有很大帮助。您的成本函数和最小化策略可能会相应更改。

链接地址: http://www.djcxy.com/p/68749.html

上一篇: How to find blank field on scanned document image

下一篇: Algorithm to compare two images