银河娱乐当奖励头径直使用偏好数据集进行覆按时-银河娱乐平台(中国)官方网站-登录入口

发布日期：2026-04-18 15:24 点击次数：94

尽管多模态大言语模子（MLLMs）取得了权臣的进展，但现存的先进模子仍然短缺与东谈主类偏好的充分对都。这一差距的存在主如果因为现存的对都贪图多集结于某些特定范畴（举例减少幻觉问题）银河娱乐，是否与东谈主类偏好对都可以全面擢升 MLLM 的种种武艺如故一个未知数。

快手，中科院，南大配合从三个层面早先激动 MLLM alignment 的发展，包括数据集，奖励模子以及覆按算法，最终的 alignment pipeline 使得不同基础模子在 10 个评估维度，27 个 benchmark 上都取得了一致的性能增益，比较凸起的是，基于本文建议的数据集和对都算法对 LLaVA-ov-7B 模子进行微调后， conversational 武艺平均擢升了 19.5%，安全性平均擢升了 60%。

偏好数据，覆按算法，模子以及评估 pipeline 均已全面开源。

该步履在 twitter 上也引起了热议，被评为多模态 alignment 的 game-changers。

主要孝顺：

新数据集：本文引入了一个包含120k精细标注的偏好比较对的数据集，包含三个维度的打分，排序，文本刻画的具体原因以及平局等标注，通盘标注由东谈主类群众完成，一共50名标注东谈主员，8名群众，耗时两个月。与现存资源比拟，这一数据集在范畴、样本种种性、标注粒度和质料等方面都有权臣擢升。

革命的奖励模子：建议了基于品评的奖励模子（Critique-Based Reward Model），该模子最初对模子输出进行品评，然后再进行评分。这一步履比拟传统的标量奖励机制，提供了更好的可讲授性和更有信息量的反馈，基于该步履的模子只需要 7B size，在 reward model benchmark 就显着优于现存公开的 72B-size 的 MLLM。

动态奖励缩放：建议了动态奖励缩放（Dynamic Reward Scaling）步履，通过证据奖励信号调养每个样本的亏空权重，优化了高质料比较对的使用，进一步提高了数据的使用服从。

全面评估：本文在10个维度和27个基准上对建议的决策进行了严格评估，同期构造了一个 reward model 的 benchmark 以及 safety 干系的 benchmark来弥补现存 benchmark 的不及，收场长远，在各个方面均取得了权臣且一致的性能擢升。

MM-RLHF 东谈主类偏好数据

数据开始：图像数据开始包括 LLaVA-OV、VLfeedback、LLaVA-RLHF、lrv-instruction 和 Unimm-Chat 等，悉数 10M，视频数据开始主如果 SharedGPT-4-video，安全性干系的数据开始主要包括 VLGuard 和自构造实质。

数据过滤与模子反应生成，通过预界说的多选题，长文本等类别均匀采样，确保少数类也有充足的样本。同期采选了 knn 聚类并采样的政策，保证数据的 diversity。反应生成使用到了 Qwen2-VL-72B、LLaVA-OV-72B、GPT-4o 和 Claude 3.5-sonnet 等起初进的 MLLM。

数据标注：主要包含三个维度，有用性，信得过性，伦感性，同期标注东谈主员需要提供打分的依据，最终名次以及名次的依据，标注粒度细，通过群众依期进行质料查验和互动评审保证标注质料。

MM-RLHF 奖励模子

圭臬奖励模子相似通过预覆按的 LLM，并用线性奖励头替换原有头部，以输出一个标量奖励值。可是，这些模子难以充分期骗东谈主类谛视中的丰富信息，也不具备充足的透明性。

为了处理圭臬奖励模子的局限性，本文建议了一种基于品评的覆按框架。在这个框架中，模子最初生成品评（对反应的分析和评估），然后基于品评来打分。品评生成部分与打分部分共同作用，确保了更细致的评价。

增强谛视以提高品评质料：由于东谈主工谛视相似好像且精好意思，径直使用它们当作覆按贪图服从有限。因此，本文通过 GPT-4o 增强东谈主工谛视，使其更为堤防和畅达，从而提高品评的质料。

在覆按经由中，品评的生成与奖励头的覆按同期进行，在覆按奖励头时采选了 teacher-forcing 的政策，即采选了 ground truth 的品评当作输入，默许亏空权重都为 1。测试阶段先生成品评，然后基于品评得出最终得分。

性能评估

该模子框架浅薄，且在多个基准测试中的线路与 GPT-4o 相失色，致使额外了很多开源模子，线路出色，尤其在自界说基准测试中，其线路远超 GPT-4o，这考证了其当作覆按算法奖励信号的有用性。

表 4 中也展示了，当奖励头径直使用偏好数据集进行覆按时，模子的 ACC+ 沉稳在 50% 足下。可是，当引入东谈主工谛视当作学习贪图时，ACC+ 沉稳擢升了 5%。进一步通过 GPT-4o 扩张东谈主工谛视，生成愈加堤防和畅达的品评，最终提高了 ACC+ 达 17%。当评估时径直使用东谈主工品评时，ACC 和 ACC+ 均接近 90%，标明评估质料对奖励模子服从的至关艰难性。

MM-DPO：有用期骗高质料偏好数据

要有用期骗 MM-RLHF 中的高质料数据，有以下的执行发现和技能：

MM-DPO 不再只是眷注"最难的比较对"（即名次互异最大的一双），而是将一个查询下通盘可能的反应付都纳入覆按。具体来说，关于一个查询，如果有多个反应，每一双具有不同名次的反应都被视为一个有用的比较对。这种全面的处理方式可以捕捉更细粒度的排序信息，让模子从更肤浅的偏好数据中学习。可是，这种政策也带来了新的挑战：当反应付的名次互异较小时（举例名次 3 和名次 4 的比较），其奖励差距（reward margin）相似较小，而名次互异较大的反应付（举例名次 1 和名次 4 的比较）包含的信息质料更高。如果对通盘样本对一视同仁，会导致高置信度的信息被低效期骗。

为了处理这个问题，MM-DPO 引入了动态奖励缩放（Dynamic Reward Scaling）机制，证据奖励差距动态调养更新强度，优先期骗高置信度的样本对。

具体而言，奖励模子可以天然地为样本对提供奖励差距（reward margin），这为动态适度样本的更新权重提供了一个径直的信号。

本文华取 MM-RLHF-Reward-7B 模子来计算奖励差距其中和折柳是正样本和负样本的奖励分数。

DPO 中，动态缩放因子的计算公式如下：

其中：是运转默许缩放因子 ; 是一个参数，用于均衡动态部分的孝顺；是一个可调超参数，适度跟着的变化速率。

接下来只需要将 DPO 算法中的部分替换为动态的即可。

MM-DPO 在各种 benchmark 上都线路出了可以的性能增益，而且其关于超参数并不蛮横常敏锐，大多数情况下都能使得高质料 pair 的期骗服从得到显着擢升。

27 个评估圭臬，10 种评估维度的概括评估

主步履域包括图表与文档交融、OCR、幻觉检测、数学推理、通用知识、多模态对话、高分辨率与信得过天下应用、视频交融、多图像处理以及多模态安全性。其中，多模态安全性基准 MM-RLHF-SafeBench 是自构建的，涵盖顽抗抨击、逃狱抨击、隐藏保护和无益实质生成等场景，重心评估模子的安全性与鲁棒性。这些数据集为模子的多方面性能提供了详备的测试环境。

上头两图展示了使用本文建议的数据集和对都算法，LLaVA-OV-7B、LLaVA-OV-0.5B 和 InternVL-1B 在不同维度上的对都线路，其中每个评估维度的得分在相应的基准上进行了平均。

会话武艺和安全性的权臣擢升：执行收场标明，通过对都经由，这两个方面的线路得到了权臣考订，无需调养超参数。在会话基准中，平均提高跳跃 10%，而不安全活动减少了至少 50%。此外，在 WildsVision 任务中，胜率至少提高了 50%。

在幻觉、数学推理、多图像和视频交融方面的肤浅擢升：对都后的模子在这些范畴线路出权臣的擢升。道理的是，尽管数据集结短缺挑升的多图像数据，模子在多图像任务中的线路依然权臣擢升。这标明数据集的种种性有助于模子在多个维度上进行更好的泛化。

模子对数据和超参数的偏好互异：不同模子在对都经由中线路出不同的性能趋势，而况在不同基准上对超参数开采的偏好也各不调换。举例，在对 InternVL-1B 的覆按中，发现摒除 SFT 亏空函数反而带来了更好的收场。此外，天然 InternVL-1B 在学问知识任务中线路出权臣考订，但在 OCR 任务中的相对擢升不如 LLaVA-OV 系列。这些互异主要源自模子预覆按数据集和政策的不同，因此需要证据具体模子对超参数进行定制化调养以得到最好对都服从。

小范畴的 MLLMs 很难自我擢升

尽管连年来有贪图探索了 MLLM 的自我擢升想法，但这些辛苦主要集结在特定范畴，比如对话系统。在这一部分，团队建议了与 LLM 范畴不同的不雅点，以为小范畴的 MLLM（参数少于 7B）当今在通过自我擢升收场全面性能擢升方面濒临关键挑战。执行收场，如上所示，可能有两个主要原因：

模子容量的截止：关于触及长文本或对话数据的任务，采样多个反应相似会生成至少一个相对较好的谜底，从而进行 DPO 有可能导致性能显着提高。可是，关于更具挑战性的任务，如多项弃取题或科学推理任务，小模子即使经过大宗采样，也难以生成正确谜底。在执行中，当最大采样数目达到八时，不雅察到在某些具有挑战性的多项弃取题中，模子生成了调换的异常谜底，或者在通盘样本中一致地产生异常输出。

奖励信号质料的局限性：当今大多数现存的多模态奖励模子是在有限种种性的覆按数据集上覆按的，如 VLFeedback 和 LLaVA-RLHF。这些数据集主要眷注天然图像、东谈主类对话或干系场景，容易激发过拟合问题。当偏好数据集包含更肤浅的范畴（如数学推理、图表交融或其他专科范畴）时，在现存数据集上覆按的奖励模子无法提供有用的奖励信号。因此，识别和弃取更好的样本变得困难。

这两个局限性使适合今的 MLLMs 很难在种种化的数据集上生成反应、使用奖励模子对其进行谛视并通过自我擢升轮回进行迭代考订，尽管在 LLM 对都中取得了访佛的进展。执行阐述，更好的奖励模子可以带来旯旮考订，但这些收场仍远不如使用高质料东谈主工谛视对比样本进行覆按的服从。

当年可能的贪图场地

本贪图建议了 MM-RLHF，一个高质料、细粒度的数据集，挑升用于激动多模态大言语模子（MLLMs）的对都责任。与以往专注于特定任务的贪图不同，建议的数据集和对都步履旨在全面擢升多个维度的性能。即使在奖励建模和优化算法方面仅进行了初步考订，在险些通盘评估基准上都不雅察到了权臣且抓续的擢升，强调了概括性对都政策的后劲。

瞻望当年，可以看到进一步挖掘本数据集价值的宏大契机。数据集的丰富谛视粒度，如每个维度的分数和名次根由，在面前的对都算法中仍未得到充分期骗。当年的责任将重心眷注期骗这些粒度信息与先进的优化时间，诱骗高分辨率数据来处理特定基准的局限性，并使用半自动化政策高效地扩张数据集。

团队笃信，这些辛苦不仅将激动 MLLM 对都到新的高度，还将为更肤浅、更具普适性的多模态学习框架奠定基础。

arXiv Paper: https://arxiv.org/abs/2502.10391

Training Code: https://github.com/Kwai-YuanQi/MM-RLHF

Homepage: https://mm-rlhf.github.io/

Reward Model: https://huggingface.co/yifanzhang114/MM-RLHF-Reward-7B-llava-ov-qwen

MM-RewardBench: https://huggingface.co/datasets/yifanzhang114/MM-RLHF-RewardBench

MM-SafetyBench: https://github.com/yfzhang114/mmrlhf-eval

Evaluation Suite: https://github.com/yfzhang114/mmrlhf-eval

— 完 —

投稿请责任日发邮件到：

ai@qbitai.com

标题注明【投稿】，告诉咱们：

你是谁，从哪来，投稿实质‍

附上论文 / 方法主页鸠合，以及干系方式哦

咱们会（尽量）实时复兴你

一键眷注 � � 点亮星标

科技前沿进展逐日见

一键三连「点赞」「转发」「小心心」

迎接在驳斥区留住你的思法！银河娱乐

上一篇：银he娱乐网成功使用单个自讲究模子的计较量令东说念主谢却三舍-银河娱乐平台(中国)官方网站-登录入口

下一篇：银河娱乐平台东说念主类是鼠疫耶尔森菌的随机宿主-银河娱乐平台(中国)官方网站-登录入口

热点资讯

银河娱乐当奖励头径直使用偏好数据集进行覆按时-银河娱乐平台(中国)官方网站-登录入口

尽管多模态大言语模子（MLLMs）取得了权臣的进展，但现存的先进模子仍然短缺与东谈主类偏好的充分对都。这一差距的存在主如果因为现存的对都贪图多集结于某些特定范畴（举例减少幻觉问题）银河娱乐，是否与东谈主类偏好对都可以全面擢升 MLLM 的种种武艺如故一个未知数。快手，中科院，南大配合从三个层面早先激动 MLLM alignment 的发展，包括数据集，奖励模子以及覆按算法，最终的 alignment pipeline 使得不同基础模子在 10 个评估维度，27 个 benchmark 上都取...

银河娱乐当奖励头径直使用偏好数据集进行覆按时-银河娱乐平台(中国)官方网站-登录入口

热点资讯

相关资讯