目标检测论文解读4——Faster R-CNN

背景

　　Fast R-CNN中的region proposal阶段所采用的SS算法成为了检测网络的速度瓶颈，本文是在Fast R-CNN基础上采用RPN(Region Proposal Networks)代替SS。

方法

　　从图中我们可以看到，RPN的输入为最后一个Conv层输出的feature map，输出为一系列ROI，后面的过程就跟Fast R-CNN一样了。

　　所以在这里我们只需要了解RPN是如何工作的。

　　论文里有这样一张图，讲解了RPN的过程(注意后面的k不是千，而是代表每个特征点要预测的anchors个数)。但我觉得可能很多人看到这张图都难以理解，本人也是结合模型的网络结构才理解的，所以我在这里更通俗地解释一下。

目标检测论文解读4——Faster R-CNN-LMLPHP 　　

　　论文上的图有点抽象，屏蔽了很多细节部分，初学者看的话可能会似懂非懂，从网络结构上看的话那么RPN的原理就非常清晰了。

　　假设每个点预测9个Anchor，即k=9

　　(1)首先，原图片经过一系列卷积，会得到一个feature map，即左下角的256*h*w的FM，作为ROI pooling和RPN的输入；

　　(2)RPN网络中，256*h*w的FM，先经过256*3*3 Conv+Relu，得到一个新的256*h*w的FM(注意：这里pad=1，所以h和w不变)，这个步骤对应论文图中的3*3的sliding window；

　　(3)新的256*h*w的FM经两个分支，一个是18*1*1 Conv，代表前背景分类分支，输出一个18*h*w的FM，用来预测特征图的每个点所对应的Anchors是为前景还是背景；

　　(4)另一个是36*1*1 Conv，代表坐标回归分支，输出一个36*h*w的FM，用来预测特征图的每个点所对应的9个Anchors坐标需要调整的大小；

　　(5)把上面两种预测综合一下，就能得到预测的候选框了，后面的步骤就跟Fast R-CNN一样了。

总结

　　Faster R-CNN = RPN + Fast R-CNN