您现在的位置是:首页 > 玩家福利
LLM超越人类时该如何对齐?谷歌用新RLHF框架解决了这个问题
掌游情报站
2025-01-06【玩家福利】88人已围观
简介机器之心报道编辑:Panda我们这个世界是不断变化的开放世界。人工智能要在这个世界长久立足,就需要突破许多限制,包括可用数据和规模和质量以及有用新信息的增长率。对基于LLM的AI来说,高质量的人类数据非常关键,但已有研究预计这些高质量数据将在未来几年耗尽。如果LLM保持现在的发展势头,预计在2028...
机器之心报道
编辑:Panda
我们这个世界是不断变化的开放世界。人工智能要在这个世界长久立足,就需要突破许多限制,包括可用数据和规模和质量以及有用新信息的增长率。
对基于LLM的AI来说,高质量的人类数据非常关键,但已有研究预计这些高质量数据将在未来几年耗尽。
如果LLM保持现在的发展势头,预计在2028年(中位数)左右,已有的数据储量将被全部利用完,来自论文《Willwerunoutofdata?LimitsofLLMscalingbasedonhuman-generateddata》
此后,这类数据的质量也将停滞不前:随着LLM能力越来越强,它们将能解决越来越复杂和越来越多的难题,而这些难题所需的训练数据已经超出了人类的能力。
因此,我们就需要为LLM构建一种能使其实现自我提升的基本机制,让模型可以持续地自我生成和自我求解更困难的问题。
于是,问题就来了:语言模型能否自我创建可学习的新任务,从而实现自我改进以更好地泛化用于人类偏好对齐?
为了提升语言模型的对齐能力,人们已经提出了许多偏好优化算法,但它们都默认使用固定的提示词训练分布。这种固定的训练范式缺乏可扩展性,并不可避免地导致泛化问题和效率问题。
基于这些考虑,谷歌DeepMind和芝加哥大学一个研究团队开发了一种可扩展的开放式RLHF框架eva,即EvolvingAlignmentviaAsymmetricSelf-Play,也就是「通过非对称自博弈实现的演进式对齐」。
论文标题:EvolvingAlignmentviaAsymmetricSelf-Play
论文地址:
eva能让自我提升式语言模型的训练分布自动演进,如图1所示。
eva的核心方法
在介绍eva的核心方法之前,我们需要先了解一些前提设置,这里截图如下:
概述地讲,eva可通过一个创建器(creator)将经典RLHF扩展成开放式RLHF,该创建器使用易于实现的估计、采样、进化程序来调整提示词的分布,模仿不对称自博弈的最小最大遗憾(minimax-regret)策略。
原理:用于联合自我提升的开放式RLHF
直观说明
经典RLHF是在一个静态提示词分布上执行优化,这意味着智能体仅与固定的参考点对齐,这使得它难以对应不断变化的现实世界中的新问题。
新提出的开放式RLHF框架eva则打破了这个静态设置,其目标是开发出一种能很好地泛化到未曾见过的新环境的智能体。为此,该团队必须设计一个新的目标,而不仅仅是在一个固定数据集上执行优化。
形式化描述
π_φ(x)是可优化的提示词生成策略,其会与响应策略π_θ(y|x)一起被联合优化,如下所示:
其中,p_ref(x)表示所有可能任务(通过提示词实例化)的理想化的可能很难处理的概率,其可作为智能体可能遇到的任务的全部多样性和复杂性的概念参考,同时用作对齐的指导目标。此外,联合优化可确保任务分配和智能体的响应策略同步更新,从而适应日益复杂的任务,进而促进泛化。
机制:通过创建器和求解器博弈实现非对称自博弈
直观说明
由于未指定的参考很难处理以及联合微分存在不稳定问题,因此(7)式很难直接优化。为此,该团队提出了一种交替式的优化方案,其做法是将该问题表述成一个非对称的创建器-求解器博弈。
直观地讲,创建器可以通过复杂度不断增加的提示词例程来指导求解器,从而实现高效和一般性的学习,以处理现实任务的多样性。
从数学上看,这类似于通过期望最大化进行的RL优化,其中提示词分布的φ在每个步骤中都是固定的。
形式化描述
该团队将这种交替优化表述成了一种非对称博弈,如下所示:
创建器(Creator:提示词博弈者π_X,其作用是策略性地为求解器生成提示词。
求解器(Solver:响应博弈者π_{Y|X}(或π),其作用是学习生成更符合偏好的响应。
该团队采用了minimaxregret策略,其中求解器的目标是最小化后悔值,而创建器则是为了最大化这个值,即当前策略和最优策略之间的奖励之差为:
在纳什均衡下,之前已有研究表明:
然而,如果无法获得真正的最优策略,就必须近似后悔值。利用随机策略和奖励信号,该团队设计了基于优势的代理函数:
总之,eva允许创建一个不断演进的提示词分布,其难度会随智能体的演进而逐步提升。新引入的minimaxregret可进一步增加这种不断发展的例程的稳健性,其做法是激励智能体在所有情况下都表现良好。他们使用了信息量代理来指导学习。
总之,eva是将对齐视为一种非对称博弈,其机制是创建器不断挑战求解器,而求解器则不断学习提升。
实际的算法
下面说明如何实际实现算法1中的eva。
1.创建器步骤:估计,采样,然后演进
显然,创建器会找到最有用的提示词并生成它们的变体,并将这些变体用于偏好优化。创建器的实现分为3步。
第1步:info(・)——估计信息量。对于提示集X)t中的每个x,生成响应、注释奖励并通过(10)式估计x的信息量指标。
第2步:sample(・)——对富含信息的子集进行加权采样。使用信息量指标作为权重,对富含信息的提示词子集X^info_t进行采样,以便稍后执行演进。
第3步:evolve(・)——为高优势提示词执行近端区域演进。具体来说,迭代X^info_t中的每个提示词,让它们各自都演化为多个变体,然后(可选)将新生成的提示词与对X_t的均匀采样的缓存混合以创建X′_t。
2.求解器步骤:求解然后优化
此步骤是经典的偏好优化,其中生成响应并执行梯度下降。以逐点奖励模型设置为例,对于每个提示,采样n个响应,每个响应都带有奖励注释;这里采用最大和最小奖励的响应来构建偏好对,然后进行优化。
总之,eva可以使用新的创建器模块统一现有的迭代优化工作流程,该模块可以与求解器策略共享相同的网络,也可独立运行。
实验结果
eva能实现自我提升
如表1红色标记所示,eva在不同优化算法中的表现显著优于基础设置,尤其是在更难的Arena-Hard基准上,该基准由于其提示词的复杂性和更公平的评分系统而被认为更具挑战性。
具体来说,eva使用SimPO作为求解器时增益为8.4%,使用DPO作为求解器时增益为8.5%,超越了其27B版本并与Arena-Hard排行榜上报告的claude-3-opus-240229相当,同时还使用了全自动的提示词生成进行对齐。
eva可以超越人工编写的提示词
实验进一步表明,使用eva提示词训练的模型的表现能够比肩甚至超越那些使用了来自UltraFeedback的额外新提示词训练的模型,这可被视为是人类提示词。同时,前者还能做到成本更低,速度更快。
此外,在MT-Bench上,使用新的人类提示词进行训练通常会在第一轮中表现出性能下降,在第二轮中也只会有适度的提升。相比之下,eva能显著提高第二轮的表现。
针对此现象,该团队给出了自己的假设:eva可演化出全新的可学习的提示词,并且其中包含第二轮问题的特征,这表明eva涌现出了处理后续互动等新技能。
消融研究
为了验证eva各组件的有效性,该团队也执行了消融研究,下面我们简单给出其发现,详细实验过程请访问原论文:
信息量指标:新提出的基于后悔值的指标优于其它替代指标;
采样之后执行演化的流程:新方法优于贪婪选择方法;
使用奖励模型进行扩展:eva的对齐增益会随奖励模型而扩展;
持续训练:新提出的方法可通过增量训练获得单调增益;eva演化得到的数据和调度可用作隐式正则化器,从而实现更好的局部最小值。
很赞哦!(135)
上一篇:五胡乱华之鲜卑3-轲比能
下一篇:《迷雾大陆》——连弩流最强攻略