关于大语言模型LLM相关的数据集、预训练模型、提示词、微调的文心一言问答

先总结一下

关于这几个概念或者问题,在不同的层面、不同的任务下、不同的语境下不一样。有没有一个全面的认知?本文也无法给出答案。只能尽量试图抽丝剥茧。
熬了一个通宵,夜不能寐~
内心有些小焦躁
偷个懒,不整理了,把原始问答摘录出来。

想了想,过意不去,还是简单罗列几点:
1、预训练模型的数据集结构一般采用较规范的结构,这种结构延续到了提示词结构中。但是不一定就说数据集和提示词就是一回事。

2、数据集一般针对专业技术人员,在模型开发阶段使用。提示词降低了技术难度,可以面向普罗大众。

3、不同的任务,数据集也会不一样,数据集的结构也可能存在差异。提示词也会根据任务或者对话不同,而采用不同结构。但,依然不能表示这是一回事。

4、预训练模型优化的方案有多种,数据集优化、模型参数优化、提示词优化、微调优化都是方法。

5、微调所需的硬件资源尤其是GPU资源不见得比预处理模型所需小,某篇论文其实是不推荐这种方式进行优化。

6、微调后的模型如果想达到“既要解决特定任务,又能保留原始预处理模型的特点”,需要进行更加繁琐的操作。技术难度不小。

写到这里,我觉得langchain的模型切换、本地知识库是个不错的解决办法了。咱就单线程解决某一问题就行,有了拐,还要啥自行车!

Q:LLM模型预训练前与提示词关系,LLM模型预训练后与提示词关系

  • 问:
    请只回答这个关于LLM中与模型、提示词相关的问题。问题:LLM模型预训练前与提示词关系,LLM模型预训练后与提示词关系。回答:请使用主流论文和技术。
  • 答:

Q:预训练用的数据集与提示词有什么异同

  • 问:
    预训练用的数据集与提示词有什么异同
  • 答:

Q:为什么我看到的数据集结构和提示词结构一致

  • 问:
    为什么我看到的数据集结构和提示词结构一致
  • 答:

Q:某开源预训练模型无法知道“今天是几号”

  • 问:
    某6B预训练模型无法知道“今天是几号”,回答的日期是错误的。针对这种情况该如何调优
  • 答:

Q:用户循环反馈后,预训练模型是否会更新这些信息

  • 问:
    用户循环反馈后,预训练模型是否会更新这些信息,确保下次对话时能回答正确
  • 答:

Q:模型微调后,是否只使用微调后的模型

  • 问:
    模型微调后,是否只使用微调后的模型,而不是使用原始预处理模型?微调的模型通常只是更细分领域的模型,回答其他问题或任务时还没有原始预处理模型好用,这个问题又该如何解决
  • 答:
02-23 20:24