诸神缄默不语-个人CSDN博文目录

开宗明义:attention就是一个加权机制,但是权重需要经过训练得到。
本文介绍一些我自己整理的常见attention类型。

本文不关注别的博文里已经写烂了的attention机制的重要性和直觉解释(又不是写论文还要写introduction)。

最近更新时间:2022.11.23
最早更新时间:2022.11.23

1. attention基础概念讲解

2. attention结果计算方法

2.1 加权求和式

2.1.1 Scaled Dot-Product Attention

你给我解释解释,什么TMD叫TMD attention(持续更新ing...)-LMLPHP
经典用例:Transformer

2. KQV计算方式

2.1 self-attention

KQV都由输入通过线性转换运算得到。
经典用例:Transformer

3. 其他本文撰写过程中使用到的参考资料

  1. Transformer 模型详解

11-24 09:37