如何从UCI创建像“Letter Image Recognition Dataset”这样的数据图像
我使用的是来自OpenCV的letter_regcog示例,它使用了来自UCI的具有如下结构的数据集:
Attribute Information: 1. lettr capital letter (26 values from A to Z) 2. x-box horizontal position of box (integer) 3. y-box vertical position of box (integer) 4. width width of box (integer) 5. high height of box (integer) 6. onpix total # on pixels (integer) 7. x-bar mean x of on pixels in box (integer) 8. y-bar mean y of on pixels in box (integer) 9. x2bar mean x variance (integer) 10. y2bar mean y variance (integer) 11. xybar mean x y correlation (integer) 12. x2ybr mean of x * x * y (integer) 13. xy2br mean of x * y * y (integer) 14. x-ege mean edge count left to right (integer) 15. xegvy correlation of x-ege with y (integer) 16. y-ege mean edge count bottom to top (integer) 17. yegvx correlation of y-ege with x (integer)
例:
T,2,8,3,5,1,8,13,0,6,6,10,8,0,8,0,8 I,5,12,3,7,2,10,5,5,4,13,3,9,2,8,4,10
现在我已经分割了字母的图像,并且想要将它转换为这样的数据来识别它,但我不明白像“6. onpix total#on pixels”这样的所有值的含义是什么意思? 你能解释一下这些价值的意思吗? 谢谢。
我对OpenCV的letter_recog示例并不熟悉,但这似乎是一个特征向量,或者一组关于字母图像的统计信息,用于对信件的未来出现进行分类。 你的分割结果应该给你一个二进制掩码,其中1表示字母,0表示其他地方。 onpix只是字母上的像素总数,换句话说就是二进制掩码的总和。
大多数列表中的其余值都需要根据二进制掩码中值为1的像素集进行计算。 x和y只是像素的位置。 例如,x-bar仅是掩码中具有1的所有像素的所有x位置的样本均值。 您应该能够轻松地在网上找到有关平均值,方差,协方差和相关性的数学定义的参考。
14-17有点不同,因为它们基于边缘像素,但计算应该是相似的,只是在不同的像素集合上。
我叫Antonio Bernal。 在本文的第3页中,您会找到每个值的很好说明。 使用荷兰式自适应分类器的字母识别 。
如果您有任何疑问,请告诉我。 我试图使这个算法的工作,但我的问题是,我不知道如何缩放值,以适应他们的范围0-15。 你有什么想法如何做到这一点?
来自Google学者的另一个链接 - > 使用荷兰式自适应分类器的字母识别
链接地址: http://www.djcxy.com/p/89747.html上一篇: How to create data fom image like "Letter Image Recognition Dataset" from UCI
下一篇: Finding pixel coordinate from center of contours using python