目标检测是计算机视觉中一个重要的下游任务。对于车载边缘计算平台来说,很难实现实时检测的要求,因为庞大的模型会带来困难。而由大量深度可分离卷积层构建的轻量级模型不能达到足够的准确性。我们引入了一种新的轻量级卷积技术 GSConv,以减轻模型负担但保持准确性。GSConv 在模型准确性和速度之间实现了出色的平衡。此外,我们提供了一种设计范式 slim-neck,以实现更高的检测器计算成本效益。我们的方法在二十多组比较实验中表现出了鲁棒的有效性。特别地,我们改进后的检测器相比原始版本实现了最先进的结果(例如,在 Tesla T4 GPU 上以约 100FPS 的速度在 SODA10M 数据集上获得了 70.9% 的 mAP0.5)。
论文地址:https://arxiv.org/abs/2206.02424
模型结构
为什么要在Neck中使用GSConv?
为了加快预测的计算速度,CNN
中的馈送图像几乎必须在 Backbone
中经历类似的转换过程:空间信息逐步向通道传输。并且每次特征图的空间(宽度和高度)压缩和通道扩展都会导致部分语义信息的丢失。密集卷积计算最大限度地保留了每个通道之间的隐藏连接,而稀疏卷积则完全切断了这些连接。
GSConv
尽可能地保留这些连接。但是如果在模型的所有阶段都