创建可识别图像上下文的软件的可能性?

我在使用Google Goggle和Google的“按图像搜索”时出于好奇而提出了此问题。

如果您尝试向Google提供图片进行搜索,则会显示一些结果。 相同的图像效果最好(当然),但拍摄各种物体的照片可能会很困难。

我猜Google Goggle通过使用文本识别和图像匹配识别有一些解决方法。 如果文本识别发现了文本,例如“SONY”,那么事情可能会变得更简单。 如果检测到品牌形象,那么事情也应该更简单。 其他着名品牌和着名地标也是如此,如艾菲尔铁塔。 拥有文字和品牌形象可以帮助轻松识别事物。

但是,如果我们要寻找更晦涩的东西(这里需要更好的措辞),例如,请拿这张拉面图片。

拉面

如果您将此图片放入Google,您将会看到各种其他图像的图像,这些图像具有相似的颜色,有时也有类似的形状。 哎呀,结果中还有其他的拉面图像,但我认为如果这些拉面图像位于最上面,那么会更好,因为我们输入了拉面图像,我们的上下文是拉面。

所以这是我的问题,是否有可能创建一个能够理解图像上下文的软件? 我们如何在软件中表达上下文?


男人,你只是想出了这么多人从事计算机视觉工作的原因。

数学描述对象是很容易的。 颜色,形状,密度,。 。 。 所有这些都可以轻松计算。

但是在谈论“真实生活对象”时,计算机视觉变得非常复杂。

角度,亮度和简单的不一致使得准确检测物体几乎是不可能的。

在处理计算机视觉时,你应该总是问自己:是什么让我想要识别的对象变得独特?

我可以使用哪些描述符,但没有其他对象拥有?

问问你自己这个拉面的问题。 假设我只是想检测ramens。 如果汤的颜色变化怎么办? 如果肉较大怎么办?

如果你想知道更多,你应该阅读模式识别和模式匹配。

如果你能以通用的方式找到解决这类问题的办法,那么你可以注册诺贝尔奖金,我想:)

有些事情现在很流行,如脸部识别或OCR; 但它们通常很专业,只适用于一个领域。 仔细想想,即使谷歌的图片搜索算法,当你用拉面喂食时,它也很糟糕。 尽管如此,它仍然非常有效,因为他确切知道他在寻找什么。 所有的区别都是在训练中进行的,在这里你给出一个假设列表来帮助算法。

所以基本上你得到了它。 要么你创建了一个非常好的计算机视觉系统,很好地根据大量的假设检测一件事情,或者一个“好的”但很通用的:)。 选择主要取决于您的应用程序

链接地址: http://www.djcxy.com/p/68751.html

上一篇: Possibility of creating a software that can recognize context of an image?

下一篇: How to find blank field on scanned document image