文章目录 摘要 1、简介 2、相关研究 3、方法 3.1、概述 3.2、自引导注意力 3.3、混合尺度注意力 3.4、Transformer块 3.5、Transformer架构变体 4、实验 4.1、ImageNet-1K的分类 4.2、目标检测和实例分割 4.3、ADE20K上的语义分割 4.4、消融实验 5、结论 摘要 https://arxiv.org/pdf/2308.12216.pdf Vision Transformer在各种视觉任务中取得了令人印象深刻的成功。然而,其繁重的计算成本(计算成本和token序列长度的增长呈二次关系)在很大程度上限制了其处理大型特征图的能力。为降低计算成本,已有工作要么依赖局限于局部小区域的细粒度自注意力,要么依赖于全局自注意力,但却缩短了序列长度ÿ