即插即用篇 | YOLOv8 引入大感受野的小波卷积 | ECCV2024-LMLPHP
摘要:近年来,人们尝试通过增加卷积神经网络(CNN)内核的大小来模拟视觉变换器(ViTs)自注意力模块的全局感受野。然而,这种方法很快就遇到了上限,并在达到全局感受野之前就已饱和。在这项工作中,我们证明,通过利用小波变换(WT),实际上可以在避免过度参数化的情况下获得非常大的感受野。例如,对于 k × k 感受野,所提出方法中的可训练参数数量仅随着 k 的对数增长。所提出的层,命名为 WTConv,可以在现有架构中作为直接替代使用,产生有效的多频响应,并随着感受野的大小优雅地扩展。我们在 ConvNeXt 和 MobileNetV2 架构中验证了 WTConv 层在图像分类中的有效性,以及作为下游任务的骨干网络,展示了其附加属性,例如对图像损坏的鲁棒性以及对形状而非纹理的增强响应。

论文地址:https://arxiv.org/abs/2407.05848
代码地址:https://github.com/BGU-CS-VIL/WTConv?tab=readme-ov-file


1 原理

07-15 18:43