📜 引言:短答案的困境与推理的必要性

链式推理(Chain-of-Thought, CoT)在视觉语言模型(Vision-Language Models, VLM)中的重要性不言而喻。想象一下,当你在图书馆借书时,图书馆员只告诉你“书在三楼”,而不告诉你需要通过哪扇门、上哪部电梯,这样的信息显然是不够的。对于VLM来说,这种“短答案”的问题同样存在。当前训练的数据集主要依赖于简短的答案,缺乏详细的推理过程,这就好比给一个学生提供了考试答案,但从未教会他如何解题。

研究表明,仅依靠短答案训练的VLM,在需要复杂推理的任务中表现欠佳。本文提出了一种双重策略:首先,我们利用GPT-4o模型提取推理路径,丰富训练数据;其次,应用强化学习进一步校准推理质量。通过这些改进策略,我们显著提升了VLM在链式推理任务中的表现,并且在直接答案预测方面也实现了更好的泛化能力。

🧐 为什么链式推理很重要?

我们可以将VLM的推理过程类比为人类解决问题的思路。假设你要计算某个条形图中的食品种类数量,人的常规思路是逐一数出每个条形的标签,然后得出总数。然而,现有的VLM训练数据通常直接给出答案,比如“14种食品”,

10-23 11:34