愚昧之山绝望之谷开悟之坡

愚昧之山绝望之谷开悟之坡

参考

李宏毅老师讲解

思维导图

ChatGPT的理解-LMLPHP

ChatGPT

对标

instruct GPT

本质

GPT的社会化

训练过程

1 学习文字接龙

  • 无监督学习

    • 大量的自我学习

      • 生成的答案具有随机性

        • 自己修炼

2 人类老师引导文字接龙的方向

  • 监督学习

    • 标注:(问题提示,答案)对,引导gpt生成人类想要的我问题

      • 老师答案引导

3 模仿人类老师的喜好

  • 知识蒸馏,对抗学习,监督学习

    • 通过实际使用,对回答的答案进行人工高低评分

      • (根据问题+答案,评分)对训练老师评分模型

        • 老师评分引导

4 用增强式学习向模拟老师学习

  • 强化学习

    • (gpt的问题,gpt的答案)对,喂入给老师模型评判,根据奖励机制不断的训练gpt模型

      • 模型自己引导

本质

  • 模型自我学习以及模型的对抗评判,后期脱离人类的参与,引入人类的干预后,后期逐渐的减少人类的干预

缺点

简单的问题,容易出错

  • 原因:训练阶段人类标注的问题往往是正常的,并且有些难度的标注
12-09 06:48