我正在研究自动图像注释问题,其中我试图将标签与图像相关联。为此,我正在尝试学习SIFT功能。但是问题是SIFT的所有功能都是一组关键点,每个关键点都有一个二维数组,而且关键点的数量也很大,我的学习算法通常只接受一个,关键点的数量和数量如何? -d功能?
最佳答案
您可以将单个SIFT表示为“视觉单词”,它是一个数字,并将其用作SVM输入,我认为这是您所需要的。通常通过k均值聚类来完成。
此方法称为“单词袋”,在this paper中进行了描述。
Short presentation review of method。
关于opencv - 如何将SIFT/SURF用作机器学习算法的功能?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/20041355/