Demystify Transformers & Convolutions in Modern Image Deep Networks
论文:https://arxiv.org/pdf/2211.05781.pdf
视觉转换器最近的成功激发了一系列具有新颖特征转换范例的视觉主干,这些范例报告了稳定的性能增益。尽管新颖的特征转换设计通常被认为是收益的来源,但一些主干可能受益于先进的工程技术,这使得很难确定关键特征转换算子的真正收益。在本文中,我们旨在确定流行的卷积和注意力算子的真正增益,并对它们进行深入研究。我们观察到这些特征转换模块(例如注意力或卷积)之间的主要区别在于空间特征聚合的方式,即所谓的“空间标记混合器”(STM)。因此,我们首先制定了一个统一的架构来消除不同工程技术的不公平影响,然后将 STM 放入该架构中进行比较。基于上游/下游任务的各种实验和归纳偏差分析,我们发现工程技术显着提高了性能,但不同 STM 之间仍然存在性能差距。详细分析还揭示了不同 STM 的一些有趣发现,例如有效感受野和不变性测试。代码和经过训练的模型将在以下位置公开提供
对比以下注意力和卷积:
</