如何从UCI创建像“Letter Image Recognition Dataset”这样的数据图像

2018-07-02 04:40:01

我使用的是来自OpenCV的letter_regcog示例，它使用了来自UCI的具有如下结构的数据集：

Attribute Information:
     1. lettr   capital letter  (26 values from A to Z)
     2. x-box   horizontal position of box  (integer)
     3. y-box   vertical position of box    (integer)
     4. width   width of box            (integer)
     5. high    height of box           (integer)
     6. onpix   total # on pixels       (integer)
     7. x-bar   mean x of on pixels in box  (integer)
     8. y-bar   mean y of on pixels in box  (integer)
     9. x2bar   mean x variance         (integer)
    10. y2bar   mean y variance         (integer)
    11. xybar   mean x y correlation        (integer)
    12. x2ybr   mean of x * x * y       (integer)
    13. xy2br   mean of x * y * y       (integer)
    14. x-ege   mean edge count left to right   (integer)
    15. xegvy   correlation of x-ege with y (integer)
    16. y-ege   mean edge count bottom to top   (integer)
    17. yegvx   correlation of y-ege with x (integer)

例：

T,2,8,3,5,1,8,13,0,6,6,10,8,0,8,0,8
I,5,12,3,7,2,10,5,5,4,13,3,9,2,8,4,10

现在我已经分割了字母的图像，并且想要将它转换为这样的数据来识别它，但我不明白像“6. onpix total＃on pixels”这样的所有值的含义是什么意思？你能解释一下这些价值的意思吗？谢谢。

我对OpenCV的letter_recog示例并不熟悉，但这似乎是一个特征向量，或者一组关于字母图像的统计信息，用于对信件的未来出现进行分类。你的分割结果应该给你一个二进制掩码，其中1表示字母，0表示其他地方。 onpix只是字母上的像素总数，换句话说就是二进制掩码的总和。

大多数列表中的其余值都需要根据二进制掩码中值为1的像素集进行计算。 x和y只是像素的位置。例如，x-bar仅是掩码中具有1的所有像素的所有x位置的样本均值。您应该能够轻松地在网上找到有关平均值，方差，协方差和相关性的数学定义的参考。

14-17有点不同，因为它们基于边缘像素，但计算应该是相似的，只是在不同的像素集合上。

我叫Antonio Bernal。在本文的第3页中，您会找到每个值的很好说明。 使用荷兰式自适应分类器的字母识别 。

如果您有任何疑问，请告诉我。我试图使这个算法的工作，但我的问题是，我不知道如何缩放值，以适应他们的范围0-15。你有什么想法如何做到这一点？

来自Google学者的另一个链接 - > 使用荷兰式自适应分类器的字母识别

链接地址: http://www.djcxy.com/p/89747.html

上一篇: How to create data fom image like "Letter Image Recognition Dataset" from UCI

下一篇: Finding pixel coordinate from center of contours using python