- GPT-4的输入和输出:输入的内容是文本或图片,输出的内容是文本。因此,GPT-4是一种输入端多模态的模型。
- GPT-4的效果:在真实世界中还是比不上人类,但是在很多专业性的任务上已经达到了人类的水平,甚至超过人类。例如GPT-4能够在所有考生中以前10%的成绩通过律师资格证考试(GPT-3.5只能排在末尾的10%)。
- GPT-4的图片输入功能:GPT-4目公布的内容还不支持图片上传,这个属于内测功能。目前,OpenAI只选择了一家合作公司测试图片输入功能。
- GPT-4的align过程:GPT-4用了六个月的时间进行Align。这里的Align一方面使得模型能够执行人类的指令,同时使得模型能够生成与人类三观一致并且安全有用的输出。Align的方法包括使用根据用户体验中不好的例子进行学习。OpenAI认为GPT-4是它们目前最好的模型,在安全性可控性等方面都有了很大的进步。
- GPT-4的深度学习栈:OpenAI重建了深度学习栈(与微软云Azure一起),并且为了训练GPT-4重新设计了一个超级计算集群。一年前该集群也被用于训练GPT-3.5。在这次的训练中,他们修复了一些BUG,并发现训练过程非常稳定。
- GPT-4的训练任务:GPT-4也是使用传统的语言模型任务进行训练的。
- RLHF的作用:为了使得模型的回答能够与人类的意图保持一致,以及保持模型的安全可控。(或者说,RLHF就是为了对模型做控制,让模型更能够知道提问者的意图,并按照用户喜欢的方式进行作答)
- 预训练中的发现:OpenAI发现模型的能力好像就是从预训练的过程中获得的,RLHF并不能提高各种考试的成绩,有时还会使得成绩下降。
- 可预测的训练损失:OpenAI在GPT-4开始训练时,就知道最终的损失结果。这个损失结果是通过另一个小一万倍的数据集(但是方法相同)上训练的损失函数外推出来的。因为大模型的训练稳定性是非常重要的,所以这样的方法非常实用。
- GPT-4更加理性:之前的大模型有一种情况,就是模型越大,其本身就越来越不理性。但是GPT-4克服了这个缺点。
- GPT-4和GPT-3.5的能力对比:对于日常对话,GPT-4和GPT-3.5的差别不大。但是任务难度增加后,这个区别就体现出来了,GPT-4更加可靠且更加有创造力。
- GPT-4的数学和文学不好:GPT-4的数学仍然不好。另外,GPT-4在语言学和文学的本身考试上能力也不够强,但是其生成的东西大多数是空话。
- GPT-4与其他NLP大模型的对比:GPT-4在多个Benchmark数据集上的表现都明显高于之前的其他语言模型,而且是大幅度碾压。
- GPT-4与其他CV大模型的对比:GPT-4的图像输入表现也不错,但是比不上GPT-4在NLP的效果。
- GPT-4的多语言性能:GPT-4在英语上的性能最好,中文也有不错的结果。另外,GPT-4在不同语言的性能与使用语言的人数没有直接关系。
- GPT-4的System Message功能:让GPT-4扮演一个指定的角色,由此确定与用户对话时的语气语调。
- GPT-4的安全性:GPT-4的安全性已经显著提高了,相较于GPT-3.5提高了40%。另外,GPT-4通过自己提升安全性:在RLHF的过程中设置了一个奖励信号,根据预训练好的模型创建一个分类器,判断一个回答是否是敏感的、有危险的和不应该回答的,从而提升自身的回答安全性。
- GPT-4的限制:GPT-4的训练数据截至时间到2021年的9月份(尽管在后续的过程中可能会使用新的数据更新模型)。另外,GPT-4容易受到用户的欺骗。
- GPT-4的置信度:在经过RLHF之前,GPT-4对回答内容的置信度和答案本身的正确可能性基本上是对齐的。但是,经过RLHF之后,模型的校准明显下降了很多。
- GPT-4的文本长度:GPT-4的文本长度是8192个Token,这个相较于之前的模型已经是非常长的了。另外,GPT-4还有一个32768个Token长度的版本。
- GPT-4的一种图像生成方法:先让GPT-4根据指定的描述生成代码,然后运行代码得到图片。GPT-4通过这种方式可以生成图像,但是都是比较初级的图像。
11-21 07:32