高分辨率密集预测使许多吸引人的现实世界应用成为可能,例如计算摄影、自动驾驶等。然而,庞大的计算成本使得在硬件设备上部署最先进的高分辨率密集预测模型变得困难。本文介绍了EfficientViT,一种新的高分辨率视觉模型系列,具有新颖的多尺度线性注意力。与依赖于重型 softmax 注意力、硬件效率低下的大核卷积或复杂的拓扑结构以获得良好性能的先前高分辨率密集预测模型不同,我们的多尺度线性注意力仅通过轻量级和硬件高效的操作实现了全局感受野和多尺度学习(高分辨率密集预测的两个理想特征)。因此,EfficientViT在各种硬件平台上都能显著提高性能,并实现了明显的加速,包括移动 CPU、边缘 GPU 和云 GPU。在Cityscapes上没有性能损失的情况下,我们的EfficientViT相比SegFormer和SegNeXt分别实现了高达13.9×和6.2×的 GPU 延迟降低。对于超分辨率,EfficientViT相比Restormer提供了高达6.4×的加速,同时在 PSNR 上获得了0.11dB 的增益。对于 Segment Anything,在 A100 GPU 上,EfficientViT的吞吐量提高了48.9×,同时在 COCO 上实现了略微更好的零样本实例分割性能。
代码地址:https://github.com/mit-han-lab/efficientvit
论文地址: