文章目录
一、Transformer engine 变压器发动机
Transformer 模型是当今广泛使用的语言模型的支柱,从 BERT 到 GPT-3,它们需要大量的计算资源。Transformer 最初是为自然语言处理 (NLP) 开发的,现在越来越多地应用于计算机视觉、药物发现等不同领域。
它们的大小继续呈指数级增长,现在达到数万亿个参数,并导致它们的训练时间延长到数月,由于计算需求很大,这对于业务需求来说是不切实际的。例如,Megatron Turing NLG (MT-NLG) 需要 2048 个 NVIDIA A100 GPU 运行 8 周才能进行训练。总体而言,在过去 5 年中,transformer 模型的增长速度比大多数其他 AI 模型快得多,每 2 年增长 275 倍(图 19)。
H100 包括一个新的变压器引擎,该引擎使