前言

我司自去年7月份成立大模型项目团队以来,至今已有5个项目组,其中

  • 第一个项目组的AIGC模特生成系统已经上线在七月官网
  • 第二项目组的论文审稿GPT则将在今年3 4月份对外上线发布
  • 第三项目组的RAG知识库问答第1版则在春节之前已就绪
  • 至于第四、第五项目组的大模型机器人、Agent则正在迭代中

所有项目均为会对外上线发布的商用项目,而论文审稿GPT至今在过去的半年已经迭代两个版本,其中第二版的效果甚至超过了GPT4(详见《七月论文审稿GPT第2版:用一万多条paper-review数据集微调LLaMA2最终反超GPT4),为了持续累积与原始GPT4的优势,我们如今正在迭代第2.5版本:包括对GPT3.5 turbo 16K的微调以及llama2 13B的微调,本文也因此而成

第一部分 微调GPT3.5 Tubor 16K

我们微调第一版的时候,曾经考虑过微调ChatGPT,不过其开放的微调接口的上下文长度不够大部分论文的长度(截止到23年10月底暂只有4K),故当时没来得及,好在23年11.6日,OpenAI在其举办的首届开发者大会上,宣布开放GPT3.5 16K的微调接口

七月论文审稿GPT第2.5版:微调GPT3.5 turbo 16K和llama2 13B以扩大对GPT4的优势-LMLPHP

因此,我们在第2.5版便可以微调ChatGPT了,即我司正在尝试用我们自己爬取一万多条的paper-review数据集去微调GPT3.5 16k,最终让它们大乱斗,看哪个是最强王者

不过,考虑到可能存在的数据泄露给OpenAI的风险,故我们打算先用1/3的数据 微调试下,看能否把这条路径走通,以及看下胜率对比

  • 如果能超过咱们微调的开源模型,那ChatGPT确实强
  • 如果没超过,则再上全量

1.1 GPT3.5 Tubor 16K的微调

1.1.1 微调GPT3.5的前期调研:费用、微调流程、格式转换等

  1. 首先,计算一下微调GPT所需的费用
    由于我司爬取的15566条paper-review数据集的token数量为:118689950
    根据OpenAI微调gpt3.5 turbo的定价策略(Pricing)

    七月论文审稿GPT第2.5版:微调GPT3.5 turbo 16K和llama2 13B以扩大对GPT4的优势-LMLPHP

    可知,全量样本Traning阶段预计要花费的费用为(按2个epoch):118689950个token ✖️ 2个epoch ✖️ 0.008 ✖️ 汇率7.18 = 13635元
  2. 其次,这是微调的页面:https://platform.openai.com/finetune
    此外,这是OpenAI官网上关于微调的教程:https://platform.openai.com/docs/guides/fine-tuning/fine-tuning-examples
  3. 接着,根据OpenAI微调教程给的提示

    七月论文审稿GPT第2.5版:微调GPT3.5 turbo 16K和llama2 13B以扩大对GPT4的优势-LMLPHP

    把我们自己爬的数据转成做成chatml的格式,即
    {"messages": [{"role": "system", "content": "xxx"}, {"role": "user", "content": "xxx"}, {"role": "assistant", "content": "zzz"}]}
    那种
  4. 在微调页面上传自己的数据

    七月论文审稿GPT第2.5版:微调GPT3.5 turbo 16K和llama2 13B以扩大对GPT4的优势-LMLPHP

1.1.2 先后用150多条、1500多条、15000多条数据微调GPT3.5 Tubor 16K

为了先验证一下微调这个模式,故我们先用了156条paper-review数据集去微调gpt3.5 16k,然后跑完之后,我还和项目组的同事打趣说,搞不好我们是国内第一批微调gpt3.5 16k的呢,毕竟高质量的长文本数据非常稀缺

七月论文审稿GPT第2.5版:微调GPT3.5 turbo 16K和llama2 13B以扩大对GPT4的优势-LMLPHP

效果如何呢,我们先随机试一篇训练集之外的论文,做个验证,至于专业全面的评估下节详述

第二项目组的文弱同学用传七月大模型线上营群里的10pct那个数据集的倒数第二行的input(因为微调这个数据只用了群里10%的数据,所以后面的这个input数据可以做验证集),分别让gpt3.5、微调过的gpt3.5对该input进行审稿意见的输出,且对比原始的人工审稿意见

这三个输出按顺序如下从左至右展示

七月论文审稿GPT第2.5版:微调GPT3.5 turbo 16K和llama2 13B以扩大对GPT4的优势-LMLPHP

1.2 对微调后的gpt3.5 16K的效果评估

// 待更

第二部分 微调13B:首选Llama-2-13b-chat-hf

在我司这个论文审稿场景下,对于13B模型的微调,首选还是微调llama 13B(模型地址:Llama-2-13b-chat-hf)

其对卡的要求:双48g的卡或者单卡80g,即13b的话双A40用longqlora差不多

24年,2.3日开跑..

// 待更

参考文献与推荐阅读

  1. 第一阶段 开始后续第2.5版的迭代:微调GPT3.5 16K
    2.3日,新增一节的内容,即
    7.1.1 微调GPT3.5的前期调研:费用、微调流程等
  2. 2.4日,新增一节,即
    7.1.2 先后用150多条、1500多条、15000多条数据微调GPT3.5 Tubor 16K
02-05 09:14