论文地址:https://arxiv.org/abs/2201.00520

代码地址:https://github.com/LeapLabTHU/DAT

Abstract

Vision Transformer with Deformable Attention-LMLPHP

1. Introduction 

2. Related Work 

Vision Transformer with Deformable Attention-LMLPHP

图 2. 可变形注意机制的图示。 (a) 呈现可变形注意力的信息流。在左侧部分,一组参考点均匀地放置在特征图上,其偏移量是通过偏移网络从查询中学习到的。然后根据变形点从采样的特征中投影出变形的键和值,如右图所示。相对位置偏差也由变形点计算,增强了输出变形特征的多头注意力。我们只展示了 4 个参考点以进行清晰的展示,实际实施中还有更多参考点。 (b) 揭示了偏移生成网络的详细结构,标有特征图的大小。

3. Deformable Attention Transformer

3.1. Preliminaries

3.2. Deformable Attention

Vision Transformer with Deformable Attention-LMLPHP

图 3. DAT 架构图解。 N 1 到N 4 是堆叠的连续局部注意和移位窗口/可变形注意块的数量。 k 和 s 表示补丁嵌入中卷积层的内核大小和步幅。 

3.3. Model Architectures

12-09 06:23