我是计算机视觉的新手。我正在学习 Dense SIFT 和 HOG。对于密集 SIFT,算法只是将每个点视为一个有趣的点并计算其梯度向量。 HOG 是另一种用梯度向量描述图像的方法。

我认为 Dense SIFT 是 HOG 的一个特例。在HoG中,如果我们将bin size设置为8,对于每个窗口有4个块,对于每个块,有4个单元格并且块步长与块大小相同,我们仍然可以得到一个128的dim vector window 。我们可以设置任何窗口步幅来滑动窗口以检测整个图像。如果这两种算法的窗口步幅相同,则可以得到相同的结果。

我不确定我是否正确。谁能帮我?

最佳答案

SIFT 描述符选择一个 16x16 的窗口,然后将其划分为 4x4 的窗口。在这 4 个窗口中的每一个上,它计算一个定向梯度直方图。在计算此直方图时,它还在相邻角度之间执行插值。一旦您拥有所有 4x4 窗口,它就会使用窗口大小一半的高斯分布,以 16x16 块的中心为中心,对整个 16x16 描述符中的值进行加权。

另一方面,HoG 只计算一个简单的定向梯度直方图,顾名思义。

我觉得 SIFT 更适合描述一个点的重要性,因为涉及到高斯加权,而 HoG 没有这样的偏差。由于这个原因,(理想情况下)HoG 应该更适合通过密集 SIFT 对图像进行分类,如果所有特征向量都连接成一个巨大的向量(这是我的观点,可能不是真的)

关于computer-vision - 密集 SIFT 和 HoG 有什么区别?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/24619210/

10-12 22:06