增强多模态大语言模型推理能力：混合偏好优化的魔力

摘要

在当今的科技领域，开放源码的多模态大语言模型（MLLMs）正如雨后春笋般涌现。它们的训练一般分为预训练和监督微调两步。然而，这些模型在多模态推理，尤其是链式思维（CoT）表现上常常因分布偏移而受限。为了解决这一问题，我们引入了一种偏好优化（PO）过程来提升MLLMs的多模态推理能力。具体来说，我们从数据和模型两方面着手：（1）在数据方面，我们设计了一个自动化偏好数据构建流程，从而创建了一个高质量的大规模多模态推理偏好数据集MMPR；（2）在模型方面，我们探索如何将PO与MLLMs结合，开发出一种简单而有效的方法，称为混合偏好优化（MPO），提高了多模态CoT性能。我们的方法在多个基准测试中展示了出色的性能，特别是在多模态推理任务中。值得注意的是，我们的模型InternVL2-8B-MPO在MathVista上的准确率达到67.0，比InternVL2-8B高出8.7点，其表现可与大10倍的InternVL2-76B媲美。我们希望这一研究能够激发MLLMs的进一步发展。

1. 引言

随着大语言模型（LLMs）在自然语言处理领域取得的显著成功，预训练和监督微调（SFT）的训练范式也席卷了多模态领域，成为研究和开发多模态大语言模型（MLLMs）的主要选择。得益于大规模的预训练语料库和高质量的SFT数据，一系列开源MLLMs在各个领域和任务中展现出强大的性能，有些甚至取得了与商业模型相媲美的效果。然而，这些开源MLLMs仍然表现出有限的推理能力。
增强多模态大语言模型推理能力：混合偏好优化的魔力-LMLPHP

如图1所示，InternVL2-8B在MathVista上的得分为58.3（使用直接回答时），而使用链式思维（CoT）推理时下降到56.8，表明CoT推理实际上降低了其性能。这种下降在开源MLLMs中普遍存在。我们将这一现象主要归因于SFT损失引入的分布偏移。具体而言，SFT依赖于教师强迫，其中模型被训练为根据之前的真实标签预测下一个标记。然而，在推理过程中，模型必须根据自身的先前输出预测每一个标记，从而导致训练和推理之间的分布偏移。由于直接回答方法只需要简短的响应，而CoT推理涉及生成一个长的推理过程，分布偏移问题在CoT期间变得更加严重。这导致模型在使用CoT推理时表现不如直接回答。

为了克服MLLMs在CoT推理中的局限性，我们从最近的NLP方法中汲取灵感，这些方法使用偏好优化（PO）技术使模型输出与期望的推理模式对齐。具体来说，诸如直接偏好优化（DPO）的方法使模型能够从偏好信号中学习以生成更符合用户需求的响应，为从人类反馈中进行强化学习（RLHF）奠定了基础。虽然RLHF已被探索用于MLLMs，主要是为了减少幻觉，但其用于增强多模态推理的应用仍然未被充分探索。在这些见解的基础上，我们进行了一项系统研究，探讨如何使用PO来加强MLLMs的多模态推理能力。

通过PO增强MLLMs的多模态推理能力面临几个挑战：（1）有限的多模态推理偏好数据和高昂的标注成本。现有的多模态偏好数据集主要解决幻觉问题，重点是自然图像和感知数据，缺乏科学图像和推理数据。对这些类型的数据进行标注需要人工标注者仔细比较给定的推理过程，这既耗时又昂贵。（2）缺乏用于通过PO改进多模态推理的开源方法。尽管以前的工作已经探索了使用各种来源的反馈来微调MLLMs，但这些模型通常在幻觉基准测试上表现出性能提升，而在一般推理能力方面的提升很少。因此，利用PO来提高多模态推理能力仍未被充分探索。

本工作从数据和模型两方面解决这些挑战。（1）在数据方面，我们设计了一种自动化偏好数据构建流程，以创建一个高质量的大规模多模态推理偏好数据集MMPR。（2）在模型方面，我们探索了与MLLMs结合的各种PO方法，引入了一种简单而有效的方法，称为混合偏好优化（MPO），无需奖励模型即可提高多模态CoT性能。

具体来说，我们提出了一种基于延续的流程，称为Dropout Next Token Prediction（DropoutNTP），用于缺乏明确真实标签的样本，以及一种基于正确性的流程用于具有明确真实标签的样本。在DropoutNTP中，由InternVL2-8B生成的响应被视为正样本。对于给定的选定响应，我们将其截断一半，然后提示InternVL2-8B在没有图像输入的情况下完成截断答案的其余部分。这个生成的完成作为配对样本的被拒绝答案。实验结果表明，这种简单的方法在减少幻觉方面取得了与RLAIF-V提出的分而治之方法相当的性能。在基于正确性的流程中，从InternVL2-8B中为每个问题采样多个解决方案。与真实答案匹配的解决方案被用作选定响应，而不匹配的解决方案被用作被拒绝响应。

此外，我们提出了MPO方法。该算法背后的关键见解是，有效的PO过程应使模型能够学习响应对之间的相对偏好、单个响应的绝对质量以及生成偏好响应的过程。与以前的多模态PO方法相比，我们的方法在以下方面表现出色：（1）高效的自动化数据构建流程：我们的流程以可控成本生成高质量的偏好对。（2）在各个领域中的高效性：使用我们的数据和方法微调的模型在推理、问答和幻觉基准测试中表现出较高的性能。（3）在最先进设置中的改进：我们的结果基于InternVL2-8B，这是领先的开源MLLMs之一，进一步突显了我们方法的潜力。

综上所述，我们的主要贡献如下：

我们提出了一种高效的偏好数据构建流程。基于这一流程，我们创建了MMPR，一个高质量的大规模多模态推理偏好数据集，包含约300万样本。
我们引入了MPO，一种旨在提高MLLMs推理能力的有效PO算法。生成的模型InternVL2-8B-MPO表现出较强的多模态推理能力和较少的幻觉，与其基线模型InternVL2-8B相比。
我们进行了广泛的实验，以探索通过PO改进多模态推理的实用方法。结果表明，PO显著提高了推理能力，优于SFT。值得注意的是，提出的InternVL2-8B-MPO在MathVista上的准确率为67.0，超过InternVL2-8B 8.7点，并达到与大10倍的InternVL2-76B相当的性能。

2. 相关工作

多模态大语言模型

随着LLMs的进步，在MLLMs方面也取得了显著进展。为了利用预训练的LLMs和视觉基础模型（VFMs）的能力，一系列工作采用连接器来对齐它们的潜在空间，以可控成本取得了令人鼓舞的性能。此外，另一系列工作通过增加视觉特征融合层扩展了预训练的LLMs，减少了LLMs所需的视觉标记数量，同时引入了额外的训练成本。最近，有研究探索了无视觉编码器的架构，由一个单一的变换器模型共同处理视觉和文本信息，而无需单独的编码器。除了探索模型架构，最近的工作也试图构建高质量的训练数据以提高多模态推理能力。尽管取得了这些进展，MLLMs通常依赖于一种由预训练和监督微调组成的训练范式，这种范式遭遇了分布偏移曲线，表现出有限的多模态推理能力。在本工作中，我们进行了一项系统研究，探讨如何使用偏好优化来增强MLLMs的多模态推理能力。

偏好优化

偏好优化（PO）是推进LLMs和MLLMs的重要技术。具体来说，从人类反馈中进行强化学习（RLHF）使用人类偏好作为奖励信号来微调模型，使其与人类偏好对齐。InstructGPT使用奖励模型作为人类偏好的代理，并通过PPO算法最大化这一奖励，提高了模型遵循用户意图的能力，并使其更具帮助、诚实和无害（3H）。PPO-Max仔细探索了PPO的实现细节，提出了算法的一个更稳定版本。此外，DPO提出了一种基于Bradley-Terry模型的有效PO算法，去除了显式奖励模型的需求。随后的工作从各个角度进一步分析和改进了这一方法。在自然语言处理中，一系列工作探索了如何利用PO来增强推理能力。在多模态领域，然而，大多数方法主要集中于减少幻觉，留下了PO提高多模态推理能力的潜力未被充分探索。本工作表明，PO不仅可以减少幻觉，还可以加强多模态推理能力，突显了其在MLLMs发展中更广泛的适用性。

3. 可扩展的多模态偏好数据集生成

为了解决多模态偏好数据的稀缺问题，我们引入了一种可扩展的数据构建流程。基于这一流程，我们构建了一个百万级的多模态偏好数据集（MMPR）。

数据引擎

定义：我们MMPR中的每个数据样本由一个图像 I ∈ I I \in I I∈I、一个指令 x ∈ X x \in X x∈X、一个选定响应 y c ∈ Y p y_c \in Y_p yc∈Yp和一个被拒绝响应 y r ∈ Y n y_r \in Y_n yr∈Yn组成，其中 y c y_c yc优于 y r y_r yr。图像集 I I I和指令集 X X X是从现有数据集中收集的。 Y p Y_p Yp和 Y n Y_n Yn分别表示正响应集和负响应集。给定某个图像 I I I和指令 x x x，我们从初始指令模型 M 0 M_0 M0中采样候选响应 y y y如下：

y ∼ M 0 ( y ∣ x , I ) y \sim M_0(y | x, I) y∼M0(y∣x,I)

其中 M 0 ( y ∣ x , I ) M_0(y | x, I) M0(y∣x,I)表示条件于图像 I I I和指令 x x x的 M 0 M_0 M0的响应分布。

对于具有明确真实标签的指令，模型被提示首先提供推理过程，然后以“最终答案：***”的格式给出最终答案。与真实答案匹配的响应构成正集 Y p Y_p Yp，而不匹配的响应构成负集 Y n Y_n Yn。此外，未能提供明确最终答案的响应也合并到 Y n Y_n Yn中。根据这些标记为正或负的响应，我们通过从 Y p Y_p Yp中选择一个选定响应 y c y_c yc和从 Y n Y_n Yn中选择一个负响应 y r y_r yr来构建偏好对。

对于没有明确真实标签的指令，我们提出了一种简单而有效的方法：丢弃下一标记预测（Dropout NTP）。具体来说，我们直接将从公式1生成的所有响应视为正集 Y p Y_p Yp。为了生成负集 Y n Y_n Yn，我们从 Y p Y_p Yp中采样一个响应 y y y并丢弃该响应的后一半。模型需要完成剩余的响应如下：

y ~ ≥ j ∼ M 0 ( y ~ ≥ j ∣ x , y < j ) \tilde{y}_{\ge j} \sim M_0(\tilde{y}_{\ge j} | x, y_{<j} ) y~≥j∼M0(y~≥j∣x,y<j)

其中 y < j y_{<j} y<j和 y ≥ j y_{\ge j} y≥j分别是 y y y的保留部分和截断部分。 y ~ ≥ j \tilde{y}_{\ge j} y~≥j是 y < j y_{<j} y<j的完成，没有图像输入。原始响应 y = [ y < j , y ≥ j ] y = [y_{<j}, y_{\ge j}] y=[y<j,y≥j]作为选定响应 y c y_c yc，而完成的响应 y ~ = [ y < j , y ~ ≥ j ] \tilde{y} = [y_{<j}, \tilde{y}_{\ge j}] y~=[y<j,y~≥j]作为被拒绝响应 y r y_r yr。值得注意的是，虽然 M 0 M_0 M0生成的响应可能并不完美，但在没有图像输入的情况下生成的完成将引入比在有图像输入的情况下生成的更多的幻觉。因此， y y y和 y ~ \tilde{y} y~之间的偏序关系成立。

与以前的方法相比，我们的数据引擎与RLAIF-V提出的更复杂的分而治之方法同样有效（见实验结果），同时更高效。以M3CoT的数据生成为例，我们的流程每个偏好对的标记成本为571.2，而RLAIF-V使用的分而治之方法为992.7标记。因此，我们的流程成本仅为RLAIF-V的57.5%。增强多模态大语言模型推理能力：混合偏好优化的魔力-LMLPHP

多模态偏好数据集

数据集统计：使用这一流程，我们构建了一个大规模多模态偏好数据集MMPR。数据示例如图2所示。此数据集包括约75万没有明确真实标签的样本和250万具有明确真实标签的样本。对于没有明确真实标签的样本，每条指令平均包含25.0个标记，而选定和被拒绝的响应平均分别为211.4和171.2个标记。最长的选定和被拒绝响应分别包含1342和1642个标记，而最短的选定和被拒绝响应分别包含20和17个标记。对于具有明确真实标签的样本，平均指令长度为79.5个标记，选定和被拒绝响应平均分别为300.0和350.5个标记。最长的选定和被拒绝响应分别由2018和4097个标记组成，最短的响应包含32和33个标记。

数据来源：为了确保指令和图像的多样性，我们从多个领域收集样本，包括一般视觉问答（VQA）、科学、图表、数学、OCR和文档。特别是在构建开放式样本时，我们从上述所有数据源中收集指令，并提示模型在没有额外要求的情况下回答原始问题。另一方面，在通过基于正确性的流程构建样本时，我们排除了来自一般VQA和文档来源的问题，因为使用启发式规则验证生成答案的正确性对这些领域的数据集来说具有挑战性。例如，VQAv2中的真实标签由一个单词或短语组成，当模型输出完整句子或同义词作为最终答案时，可能导致假阴性响应。这种假阴性响应可能对训练效果产生负面影响。

4. 使用偏好优化改进的多模态大语言模型

为了提高MLLMs的多模态推理能力，我们提出了混合偏好优化（MPO），一种将监督微调（SFT）损失与各种偏好优化损失相结合以提高训练效果的方法。此外，我们研究了不同的链式思维（CoT）方法与多模态输入，以提高推理性能。

4.1 混合偏好优化

我们观察到，当MLLMs在大规模偏好数据集上使用直接偏好优化（DPO）进行训练时，它们可能无法生成合理的推理过程并产生乱码。这一现象与Smaug中的分析一致。为了解决这一问题，我们在本工作中引入MPO，旨在学习响应对之间的相对偏好、单个响应的绝对质量以及生成偏好响应的过程。

训练目标

MPO被定义为偏好损失 L p L_p Lp、质量损失 L q L_q Lq和生成损失 L g L_g Lg的组合，可以表示为：

L = w p L p + w q L q + w g L g L = w_pL_p + w_qL_q + w_gL_g L=wpLp+wqLq+wgLg

其中 w ∗ w_* w∗表示分配给每个损失组件的权重。在本工作中，我们通过实验比较了不同的偏好损失变体。根据实验结果，我们使用DPO作为偏好损失，使用BCO作为质量损失。

偏好损失

DPO用作偏好损失，使模型能够学习选定和被拒绝响应之间的相对偏好。DPO消除了基于Bradley-Terry模型假设训练显式奖励模型的需求，并优化以下损失函数：

L p = − log ⁡ σ ( β log ⁡ π θ ( y c ∣ x ) π 0 ( y c ∣ x ) − β log ⁡ π θ ( y r ∣ x ) π 0 ( y r ∣ x ) ) L_p = -\log \sigma \left(\beta \log \frac{\pi_\theta(y_c | x)}{\pi_0(y_c | x)} - \beta \log \frac{\pi_\theta(y_r | x)}{\pi_0(y_r | x)}\right) Lp=−logσ(βlogπ0(yc∣x)πθ(yc∣x)−βlogπ0(yr∣x)πθ(yr∣x))

其中 β \beta β是KL惩罚系数， x , y c , y r x, y_c, y_r x,yc,yr分别是用户查询、选定响应和被拒绝响应。策略模型 π θ \pi_\theta πθ从模型 π 0 \pi_0 π0初始化。

质量损失

BCO损失用作质量损失，帮助模型理解单个响应的绝对质量。该算法训练一个二元分类器，其中的logit用作奖励，并有效地将选定响应映射到1，将被拒绝响应映射到0。损失函数定义为：

L q = L q + + L q − L_q = L^+_q + L^-_q Lq=Lq++Lq−

其中 L q + L^+_q Lq+和 L q − L^-_q Lq−分别表示选定和被拒绝响应的损失。它们是独立计算的，要求模型区分单个响应的绝对质量。损失项定义如下：

L q + = − log ⁡ σ ( β log ⁡ π θ ( y c ∣ x ) π 0 ( y c ∣ x ) − δ ) L^+_q = -\log \sigma \left(\beta \log \frac{\pi_\theta(y_c | x)}{\pi_0(y_c | x)} - \delta\right) Lq+=−logσ(βlogπ0(yc∣x)πθ(yc∣x)−δ)

L q − = − log ⁡ σ ( − ( β log ⁡ π θ ( y r ∣ x ) π 0 ( y r ∣ x ) − δ ) ) L^-_q = -\log \sigma \left(-\left(\beta \log \frac{\pi_\theta(y_r | x)}{\pi_0(y_r | x)} - \delta\right)\right) Lq−=−logσ(−(βlogπ0(yr∣x)πθ(yr∣x)−δ))

其中 δ \delta δ表示奖励偏移，计算为先前奖励的移动平均以稳定训练。

生成损失

SFT损失用作生成损失，帮助模型学习生成偏好响应的过程。损失函数定义为：

L g = − log ⁡ π θ ( y c ∣ x ) ∣ y c ∣ L_g = -\frac{\log \pi_\theta(y_c | x)}{|y_c|} Lg=−∣yc∣logπθ(yc∣x)

4.2 带有多模态输入的链式思维

在数据采样过程中，我们要求模型提供详细的CoT推理过程，而不是直接回答最终答案。对于大多数样本，我们使用图2底部案例中显示的提示来采样响应，该提示要求模型进行逐步分析。考虑到多模态模型涉及非文本输入，我们进一步引入以下CoT方法：（1）基于背景知识的CoT：模型首先介绍与问题或图像相关的背景知识，然后进行推理步骤并给出最终答案。这种方法应用于科学领域的样本。（2）基于视觉内容的CoT：模型首先分析图像中的视觉内容，然后进行推理并给出最终答案。这种方法用于图表、OCR和文档领域的样本。（3）基于锚定的CoT：模型在生成文本响应的同时，将响应中引用的所有对象链接到图像中的相应区域。这种方法应用于一般VQA领域样本。这些CoT方法生成的响应与使用图2底部案例中显示的提示采样的响应混合。这些方法不仅有效地将多模态信息集成到推理过程中，还增强了数据的多样性。此外，在响应开始处包括背景知识和视觉内容也提高了DropoutNTP生成的负响应的质量，防止正负样本之间的质量差距显著降低训练效果。

5. 实验

5.1 主要结果

在本节中，我们将InternVL2-8B-MPO与领先的MLLMs在多模态推理、复杂的视觉问答（VQA）和幻觉评估任务中进行比较。

基准测试

对于多模态推理任务，我们在三个基准测试上评估我们的模型：（1）M3CoT，一个设计用于评估模型多模态CoT推理能力的综合基准。（2）MathVista，一个广泛使用的基准，用于评估多模态数学推理能力。（3）MathVision，它从真实的数学竞赛中收集评估数据，与MathVista相比更具挑战性。我们报告这些基准的准确率。

对于复杂VQA任务，我们在两个基准测试上评估我们的模型：（1）MM-Vet，它评估模型在跨多个任务的视觉对话能力。（2）LLaVA-Bench，一个常用的基准，用于评估多模态对话、详细描述和复杂推理能力与开放式问题。两个基准测试都使用GPT-4评估响应的正确性和帮助性。我们报告这些基准的总体得分。

对于幻觉评估任务，我们在三个基准测试上评估我们的模型：（1）POPE，它通过是/否问题测量对象存在的幻觉水平。我们为该基准报告F1分数。（2）CRPE，它通过多项选择问题测量对象之间关系的幻觉水平。我们为该基准报告准确率。（3）MMHal-Bench，它由开放式问题组成，其中GPT-4将模型输出与人类响应进行比较，评估幻觉率和信息量。我们为该基准报告总体得分。

结果

增强多模态大语言模型推理能力：混合偏好优化的魔力-LMLPHP

如表2所示，我们的InternVL2-8B-MPO在所有基准测试中表现出优异的性能，尤其是在多模态推理任务中表现出色。在MathVista基准测试中，我们的模型达到67.0%的准确率，超越InternVL2-8B 8.7点，并达到与大10倍的InternVL2-76B相当的性能。在MathVision基准测试中，我们的模型达到25.7%的准确率，在开源模型中建立了一个新的最先进性能。这些结果展示了我们的偏好优化方法在增强多模态推理能力方面的有效性。此外，在POPE基准测试中，我们的模型比InterVL2-8B提高了1.2点，展示了我们的MMPR数据集中包含的感知数据在减少幻觉方面的有效性。此外，我们的模型与InternVL2-8B相比在复杂的VQA基准测试中也显示出优越的性能，表明我们模型的总体能力也得到了提高，得益于增强的推理能力和减轻的幻觉。

5.2 消融研究

在本节中，我们将展示偏好优化和SFT对多模态推理能力的影响。此外，我们比较了我们提出的DropoutNTP方法与RLAIF-V的分而治之方法，证明了我们方法的有效性。进一步，我们进行了广泛的实验以分析不同偏好优化算法的效果。我们还展示了对纯文本性能的影响分析。

5.2.1 MPO与SFT的比较

为了比较MPO和SFT在提高多模态推理能力方面的影响，我们使用MMPR中的选定响应作为SFT数据对InternVL2-8B进行微调。增强多模态大语言模型推理能力：混合偏好优化的魔力-LMLPHP
正如表3所示，结果表明，使用MPO训练的模型在所有基准测试中一致优于使用SFT训练的模型。例如，MPO训练的模型在多模态推理基准M3CoT上达到79.2分，超过其SFT对应模型11.4分。此外，MPO训练的模型在一般基准（MMVet）和幻觉基准（POPE）上也表现更好。值得注意的是，SFT训练的模型在MMVet和POPE上使用CoT响应时表现不如直接回答响应，表明单靠SFT不足以增强多模态CoT能力。这些结果证明，虽然SFT提供了适度的改进，但偏好优化在提高模型的整体性能方面更为有效。

5.2.2 与RLAIF-V的比较

在这里，我们将我们提出的Dropout Next-Token Prediction（Dropout NTP）方法与RLAIF-V的分而治之方法进行比较。为了确保公平比较，我们使用与RLAIF-V相同的提示和选定响应，用延续生成的响应代替被拒绝响应。按照RLAIF-V的做法，我们报告Object HalBench的响应级别（Resp.）和提及级别（Ment.）幻觉率，以及MMHal-Bench的总体得分和幻觉率（Hall.）。增强多模态大语言模型推理能力：混合偏好优化的魔力-LMLPHP
如表4所示，使用我们的数据训练的模型在性能上与使用RLAIF-V训练的模型相当，证明了我们方法的有效性。具体来说，使用我们的数据训练的模型在Object HalBench上的响应级别幻觉率为7.6，而其对应模型为7.3。此外，该模型在MMHal-Bench上获得3.6分，而其对应模型为3.5。注意，我们的方法要求模型为每个样本生成一个延续，而RLAIF-V要求模型将响应分解为原子声明，然后逐个验证。因此，我们的方法更高效。定量分析在3.1节中提供。

5.2.3 优化算法的效果

在这里，我们通过实验比较了不同优化算法的有效性，包括（1）DPO，直接在离线偏好数据集上微调模型而不显式构建奖励函数。（2）RSO，在归一化似然上应用铰链损失，而不是DPO中使用的sigmoid损失。（3）IPO，引入修改后的损失函数，通过平均对数似然和控制选定和被拒绝完成之间的间隙，通过beta参数来应对DPO中的过拟合。（4）cDPO，是DPO损失的修改，考虑到偏好数据中的潜在标签噪声。（5）RobustDPO，提供DPO损失的无偏估计，旨在处理数据中的偏好噪声。与cDPO类似，它假设标签以一定概率是噪声的。（6）BCO，引入训练输出logits用作奖励值的二元分类器。（7）SPPO，通过将选定奖励推向1/2和被拒绝奖励推向-1/2来迭代地逼近纳什均衡，旨在减少数据稀疏性问题。（8）AOT，通过最优传输应用分布偏好对齐。（9）TR-DPO，每隔几步向模型和参考模型添加同步，以减轻DPO训练期间的过拟合。（10）ORPO，一种没有参考模型的偏好优化算法，使用附加到NLL损失的对数赔率比惩罚，允许进行偏好对齐的微调而无需额外的偏好对齐阶段。对于所有算法，我们将学习率设为5e-6，并使用其对应论文中建议的超参数。此外，我们将这些算法与SFT损失扩展，以分析其影响。使用推理偏好数据的选定响应训练的SFT模型也作为基线。

注意，大多数当前的基准测试缺乏相应的分布内训练样本，而我们的MMPR的数据分布可能与这些基准测试的数据分布不同。这种差异可能在分析不同优化算法对训练结果的影响时引入额外的变异性。因此，我们使用M3CoT的训练和验证集进行消融研究。

可视化结果如图所示，数值结果如表6和7所示。我们可以观察到，几乎所有偏好优化方法在直接和CoT设置中都优于其SFT对应模型。然而，DPO及其变体在增强模型的CoT推理能力方面表现不佳，因为生成的模型在使用CoT推理响应时相比直接回答响应时显示出琐碎或没有改进。另一方面，当将SFT损失与这些DPO变体结合时，所有算法都能够提高模型的CoT推理能力，表明SFT损失是增强CoT推理能力的关键组件。此外，使用TR-DPO训练的模型，即每隔几步更新参考模型的DPO变体，在使用CoT推理时表现出比直接回答响应更差的性能。同样，使用ODPO训练的模型，即没有参考模型的方法，在扩展了SFT损失的其他方法相比中取得了较差的整体性能。这些结果表明，参考模型对策略更新的约束对于增强整体推理能力至关重要，并且在训练期间参考模型应该保持冻结。值得注意的是，使用DPO+和BCO+训练的模型在现有算法中表现出最佳的CoT性能。因此，我们使用DPO和BCO作为偏好损失和质量损失。生成的算法（即MPO）进一步提高了整体性能。

5.3 对纯文本性能的影响

我们在一系列基准测试上评估我们模型的纯文本性能，并报告其中的平均性能。正如表5所示，尽管我们的MMPR数据集中不包含任何纯文本数据，但使用MPO训练的模型在这些基准测试的平均性能上超过了基线模型。最显著的改进是在TheoremQA和IFEval上观察到的。具体来说，我们使用MPO训练的模型在TheoremQA上的准确率达到20.8，这是一个由复杂科学问题组成的基准，超过基线模型5.2点，超过SFT对应模型5.0点。此外，由于我们的数据集在使用基于正确性流程构建数据时考虑了未能遵循指令的响应作为负样本，我们的模型在IFEval上也表现出增强的指令遵循能力，超过基线模型4.1点，超过SFT对应模型2.8点。

6. 结论

在本工作中，我们引入了一种偏好优化（PO）过程来增强MLLMs的多模态推理能力。在数据方面，我们设计了一种适用于具有和没有明确真实标签的指令的自动化偏好数据构建流程。使用这一流程，我们创建了MMPR，一个高质量的大规模多模态推理偏好数据集。在模型方面，我们提出了一种简单而有效的方法，称为混合偏好优化（MPO）。该算法旨在学习响应对之间的相对偏好、单个响应的绝对质量以及生成偏好响应的过程。生成的模型，InternVL2-8B-MPO，与其基线模型InternVL2-8B相比，表现出增强的多模态推理能力和较少的幻觉。我们希望这一研究能够激发MLLMs的进一步发展。

参考文献

OpenGVLab, Shanghai AI Laboratory, et al. (2024). Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization.
InstructGPT: Training Language Models to Follow Instructions with Human Feedback.
Reinforcement Learning from Human Feedback (RLHF) for Multimodal Large Language Models.
MathVista: A Benchmark for Multimodal Mathematical Reasoning.
Bradley-Terry Model for Preference Optimization in Language Models.

步子哥