ChatGPT的技术路线
基于 GPT-3.5,GPT-4 预计提升更明显
ChatGPT 是基于 GPT-3.5 的主力模型。在互联网开源数据集上进行训练,引入人工数据标注和强化学习两项功能,实现“从人类反馈中强化学习”。相比之前的模型,ChatGPT 可以更接近人类思考的方式,根据上下文和情景,模拟人类的情绪和语气回答用户提出的问题。OpenAI 首席执行官称,GPT-4 有望成为多模态的人工智能。GPT-4 的参数预计更大,计算模型优化有望实现更优化,且 GPT-4 将是纯文本模型,更具备“拟人化”的功能。文本生成和内容创作有望更加丰富,并有望进入文字工作的相关领域,例如新闻、金融等相关行业。
GPT、Bert 均源自 Transformer 模型
NLP 模型首选——Transformers。2017 年由 Google Brain 团队推出深度学习模型 Transformer,采用自注意力机制,对输入数据的每一部分的重要性进行差异加权,主要用于自然语言处理(NLP) 和计算机视觉(CV)领域。BERT(Bidirectional Encoder Representations from Transformers )为谷歌于 2018 年推出的一种基于神经网络的 NLP 预训练技术,BERT 在情绪分析和回答问题等分类任务中表现良好,在命名实体识别和下一句预测方面也表现出色。ChatGPT 同样是根据语言/语料概率来自动生成回答的每一个字(词语),即利用已经说过的语句作为输入条件,预测下一个时刻语句出现的概率分布。
领先的 NLP 模型
ChatGPT 是一个出色的 NLP(Natural language processing-自然语言识别)新模型。NLP 随算力增长突破:在过去的十年里,通过使用简单的人工神经网络计算,基于以 GPU、TPU 为代表的强大算力资源,并在巨量的数据上进行训练,自然语言处理(NLP)取得了令世人瞩目的成就和突破。自然语言处理最重要的进步在于它对书面文本的分析能力。
RLHF 与 TAMER 是重要架构支撑
- RLHF:InstructGPT/GPT3.5(ChatGPT 的前身)与 GPT-3 的主要区别在于,新加入了被称为 RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)。
- 循环:训练范式增强了人类对模型输出结果的调节,整个训练过程是人类、代理对目标的理解和 RL 训练之间的 3 步反馈循环。
- 在 InstructGPT 中,以下是“goodness of sentences”的评价标准。真实性:是虚假信息还是误导性信息?无害性:它是否对人或环境造成身体或精神上的伤害?有用性:它是否解决了用户的任务?
TAMER(Training an Agent Manually via Evaluative Reinforcement,评估式强化人工训练代理)框架将人类标记者引入到 Agents 的学习循环中,可以通过人类向 Agents 提供奖励反馈(即指导Agents 进行训练),从而快速达到训练任务目标。通过 TAMER+RL(强化学习),借助人类标记者的反馈,能够增强从马尔可夫决策过程(MDP) 奖励进行强化学习 (RL) 的过程。
我们的 ChatGPT 模型是基于 GPT-3.5,并添加了 RLHF 的支持。我们相信,这个模型将在未来的 NLP 领域发挥重要作用,为人类带来更多便捷和创造价值。