创建可识别图像上下文的软件的可能性？

2018-06-24 13:02:43

我在使用Google Goggle和Google的“按图像搜索”时出于好奇而提出了此问题。

如果您尝试向Google提供图片进行搜索，则会显示一些结果。相同的图像效果最好（当然），但拍摄各种物体的照片可能会很困难。

我猜Google Goggle通过使用文本识别和图像匹配识别有一些解决方法。如果文本识别发现了文本，例如“SONY”，那么事情可能会变得更简单。如果检测到品牌形象，那么事情也应该更简单。其他着名品牌和着名地标也是如此，如艾菲尔铁塔。拥有文字和品牌形象可以帮助轻松识别事物。

但是，如果我们要寻找更晦涩的东西（这里需要更好的措辞），例如，请拿这张拉面图片。

如果您将此图片放入Google，您将会看到各种其他图像的图像，这些图像具有相似的颜色，有时也有类似的形状。哎呀，结果中还有其他的拉面图像，但我认为如果这些拉面图像位于最上面，那么会更好，因为我们输入了拉面图像，我们的上下文是拉面。

所以这是我的问题，是否有可能创建一个能够理解图像上下文的软件？我们如何在软件中表达上下文？

男人，你只是想出了这么多人从事计算机视觉工作的原因。

数学描述对象是很容易的。颜色，形状，密度，。。。所有这些都可以轻松计算。

但是在谈论“真实生活对象”时，计算机视觉变得非常复杂。

角度，亮度和简单的不一致使得准确检测物体几乎是不可能的。

在处理计算机视觉时，你应该总是问自己：是什么让我想要识别的对象变得独特？

我可以使用哪些描述符，但没有其他对象拥有？

问问你自己这个拉面的问题。假设我只是想检测ramens。如果汤的颜色变化怎么办？如果肉较大怎么办？

如果你想知道更多，你应该阅读模式识别和模式匹配。

如果你能以通用的方式找到解决这类问题的办法，那么你可以注册诺贝尔奖金，我想:)

有些事情现在很流行，如脸部识别或OCR; 但它们通常很专业，只适用于一个领域。仔细想想，即使谷歌的图片搜索算法，当你用拉面喂食时，它也很糟糕。尽管如此，它仍然非常有效，因为他确切知道他在寻找什么。所有的区别都是在训练中进行的，在这里你给出一个假设列表来帮助算法。

所以基本上你得到了它。要么你创建了一个非常好的计算机视觉系统，很好地根据大量的假设检测一件事情，或者一个“好的”但很通用的:)。选择主要取决于您的应用程序

链接地址: http://www.djcxy.com/p/68751.html