我一直在阅读有关用于对象(人类)检测的HOG描述符的理论。但是我对实现有一些疑问,这听起来似乎微不足道。

关于包含块的窗口;窗口应在每个步骤中窗口重叠的像素上逐像素移动,如下所示:

还是应该移动窗口而不会造成任何重叠,例如:

到目前为止,我所看到的插图都使用了第二种方法。但是,考虑到检测窗口的大小为64x128,通过将窗口滑动到图像上方,很可能无法覆盖整个图像。如果图片的大小为64x255,则将不检查最后127个像素的对象。因此,第一种方法似乎更合理,但是更多的时间和CPU消耗。

有任何想法吗?
先感谢您。

编辑:我试图坚持Dalal和Triggs的原始论文。可以在此处找到实现该算法并使用第二种方法的一篇论文:http://www.cs.bilkent.edu.tr/~cansin/projects/cs554-vision/pedestrian-detection/pedestrian-detection-paper.pdf

最佳答案

编辑:
抱歉-我误会了你的问题。 (此外,我为错误的问题提供的答案是错误的-自此以后,我针对上下文进行了调整。)

您正在询问使用HOG描述符进行检测,而不是生成HOG描述符。

在上面引用的实施文件中,它们似乎与检测窗口重叠。窗口大小为64x128,而他们使用的水平跨度为32个像素,垂直跨度为64。他们还提到尝试使用较小的跨度值,但这会导致较高的误报率(在其实现方式中)。

最重要的是,他们正在使用输入图像的3个比例:1、1 / 2和1/4。他们没有提到检测窗口的任何相应缩放比例-我不确定从检测的角度来看会产生什么效果。似乎这也会隐式地产生重叠。



原始答案(已更正):

看看Dalal和Triggs的论文(在6.4节中),好像他们提到了i)在生成HOG描述符时没有块重叠,以及ii)半块和四分之一块重叠。根据他们的结果,听起来更大的重叠会产生更好的检测性能(尽管会增加资源/处理成本)。

08-05 23:13