我读到CNN(具有卷积层和最大合并层)都是不变位移的,但是大多数对象检测方法使用的是带有非最大抑制的滑动窗口检测器。在进行对象检测时是否需要将带有CNN的滑动窗口使用?
基本上,不是在包含所需对象的小型50x50图像块上训练网络,而是为什么不在对象存在于某处的整个图像上进行训练?我能想到的只是实用/性能方面的原因(向前传递较小的色块而不是整个图像),但是我也忽略了理论上的解释吗?
最佳答案
在内部,CNN正在滑动窗口。就二维图像而言,卷积无非就是以滑动窗口方式应用的线性滤波器。这是非常相同操作的简单数学表达式,可帮助我们进行整洁的优化。另一方面,最大合并可帮助我们在较小的移位/噪声方面变得更强大。因此,要在网络上有效地使用图像,就要使用(很多!)滑动窗口。我们可以传递大图像而不是小图像吗?当然,但是您会得到非常大的张量(只需计算所需的数量,这是巨大的),就会遇到非常复杂的优化问题。如今,我们在百万维空间中进行优化。处理整个图像可能会导致尺寸增加(甚至更大)。优化复杂度随维数的增长而呈指数增长,因此您最终将获得极其缓慢的方法(不是就计算本身而言,而是收敛)。