Attention超详细讲解:Attention超详细讲解
保姆级讲解transformer:保姆级讲解transformer
Transformer工作流程复现:Transformer工作流程复现
保姆级讲解BERT:
1.BERT分为哪两种任务,各自的作用是什么;
2.在计算MLM预训练任务的损失函数的时候,参与计算的Tokens有哪些?是全部的15%的词汇还是15%词汇中真正被Mask的那些tokens?
3.在实现损失函数的时候,怎么确保没有被 Mask 的函数不参与到损失计算中去;
4.BERT的三个Embedding为什么直接相加
5.BERT的优缺点分别是什么?
6.你知道有哪些针对BERT的缺点做优化的模型?
7.BERT怎么用在生成模型中?