超越DeepSeek V3!Ai2再祭开源杀器Tülu 3,强化学习打破性能瓶颈
创始人
2025-02-05 14:00:45
0

新智元报道

编辑:peter东 乔杨

【新智元导读】当我们在欢呼Deepseek超越ChatGPT时,来自美国的艾伦人工智能研究所(Ai2)推出了基于强化学习的新一代开源模型Tülu 3 405B,不仅能够媲美GPT-4o,更在多项关键基准测试中超越了DeepSeek v3。

2024年11月,艾伦人工智能研究所(Ai2)推出了Tülu 3 8B和70B,在性能上超越了同等参数的Llama 3.1 Instruct版本,并在长达82页的论文中公布其训练细节,训练数据、代码、测试基准一应俱全。

论文链接:https://arxiv.org/pdf/2411.15124

1月30日,更大杯的Tülu 3 405B震撼登场。

Tülu 3 405B在许多标准的基准测试中均实现了与Deepseek v3和GPT-4o相当或更优的性能,而且也超越了许多先前发布的后训练开源模型(同等参数规模),包括Llama 3.1 405B Instruct和Nous Hermes 3 405B。

各项基准结果比较,最后一列是强化学习优化过的Tülu 3 405B的表现,在多项指标上超越了Deepseek V3

不过在官网提供的体验版上试了试,效果也并不是那么好,对于经典的数Strawberry中有几个r的问题,Tülu 3同样扑街,不过之后需要推理的问题,模型倒是给出了正确的回答思路。

demo传送门:https://playground.allenai.org/

至于其生成出的一些与蛇相关的格言,大多都没有理解传统文化中「蛇」的寓意,显得牛头不对马嘴。

对于想体验本地大模型的读者,Tülu 3 8B和70B已支持ollama下载,可以方便地集成使用,相信405B也会尽快上线ollama平台。

Tülu 3的炼丹术如何

早期的语言模型后训练工作遵循了由InstructGPT等模型开创的标准方法,包括指令微调(instruction-tuning)和偏好微调(preference fine-tuning)。

自此以后,后训练方法的复杂性和精密度不断增加,但大多数成功的后训练模型对其训练数据、代码或训练方法的披露非常有限。在众多后训练研究中,Ai2罕见地选择了完整发布训练数据、方法和研究成果,包括最新的Tülu 3在内。

仓库地址:https://github.com/allenai/open-instruct

Tülu 3的全部构建流程如下图所示,包括主要包括数据、训练和评估三部分。

Tülu 3项目始于确定通用语言模型的关键期望能力,包括知识、推理、数学、编程、指令遵循、日常聊天和安全性。

其中最关键的模型训练,是在预训练语言模型(即Llama 3 Base)的基础上采用四阶段后训练配方,四阶段依次是:

1)精心策划和合成式提示(prompt);其使用的提示词来源如下:

2)在精心挑选的提示词以及相应生成内容的混合数据集上进行监督微调,以针对核心技能优化模型;同时为了保证模型安全性,使用如下带有攻击性提示词的数据,训练Tülu 3让其尽可能不会被攻破。

3)结合离线和在线策略偏好数据以应用偏好微调;

具体来说,就是在之前提示词的基础上,再生成一些不同的新提示词,通过22种开源大模型生成回答,让GPT-4o对各模型给出的回答在有用程度、真实性、诚实性及指令遵循上的表现进行打分,决定是否接受该回答作为训练数据。

4)一种新的基于强化学习(RL)的方法,通过可验证奖励来增强特定技能;

具体来说,Tülu 3使用了一种独创的后训练方法,称为:可验证奖励强化学习(Reinforcement Learning from Verifiable Rewards,简称RLVR),流程图如下所示。

这种新的训练方法专门针对具有可验证结果的任务,例如数学问题求解和指令遵循问题。根据训练数据和提示词,明确判断问题是否完成,从而更新策略函数。

有趣的是,训练采用的可验证奖励强化学习框架在更大规模(例如405B)上对数学性能的提升更为显著,这与DeepSeek-R1报告中的发现类似,即相比70B和8B参数规模,405B模型由强化学习带来的提升更为明显。

对此,可能的解释是小型模型从更多样化的数据中受益更多,而大型模型更适合处理需要专门数据的复杂任务。

训练Tülu 3 405B时使用了32个节点(256个GPU)并行运行。对于推理,可使用vLLM部署模型,采用16路张量并行,同时利用剩余的240个GPU进行训练。

鉴于计算成本有限,超参数调整受到限制。训练时遵循了「参数更大的模型采用较低学习率」的原则,这与Llama模型之前的实践一致。

上图展示了在405B的参数量上,MATH数据集的可验证奖励、KL散度和模型响应长度随训练轮次的变化曲线,总体而言,可验证奖励像在8B和70B设置中观察到的那样上升。

图中星号标记对应最终检查点的位置。论文表示,团队本打算训练更长时间,但由于计算资源限制而被迫停止。由于在训练过程中没有观察到数学性能饱和,进一步训练可能会进一步提升性能。

总体来看,Tülu 3采用了全新的后训练框架,包括完全开源的数据(Tülu 3 Data)、评估(Tülu 3 Eval)、训练代码(Tülu 3 Code)以及开发配方(Tülu 3 Recipe),并在性能上超越了同尺度的开源及闭源模型。

Tülu 3标志着开放后训练研究的一个新的里程碑。凭借Ai2披露的信息和研究成果,其他人可以在开放的基础模型上继续构建,并针对多样化任务进行微调以实现高性能,这为在多目标和多阶段训练框架内推进后训练研究铺平了道路,其提出的训练方法也值得开发者借鉴。

参考资料:

https://arxiv.org/pdf/2411.15124

相关内容

热门资讯

扬州造“永不落幕的太阳”升空,... 近日,夜幕下的江都区低空经济人才实训基地内,一架搭载巨型LED灯组的无人机凌空悬停,将6000平方米...
上合嘉宾盛赞天津:智慧科技、职... 中国日报网7月8日电 7月7日,来津参加“世界市长对话·上合峰会城市”活动的中外嘉宾探访天津港“智慧...
第4号台风在浙登陆 水利部维持... 【第4号台风在浙登陆 水利部维持对浙、闽的防洪Ⅳ级应急响应】财联社7月8日电,据水利部消息,今年第4...
恒力石化取得再生气干燥系统专利... 金融界2025年7月8日消息,国家知识产权局信息显示,恒力石化(大连)化工有限公司取得一项名为“一种...
湖南造3D打印发动机完成首飞验... 原标题:株洲动研所自主研制,极简轻质微型涡喷 3D打印发动机完成首飞验证 7月1日,株洲芦淞中国航发...
合肥德通科贸取得加速器辅助安装... 金融界2025年7月8日消息,国家知识产权局信息显示,合肥德通科贸有限公司取得一项名为“一种加速器辅...
陕西大荔开展首台智能冬枣采摘机... 中新网陕西大荔7月8日电 (杨英琦 王雯 王鑫)在陕西渭南大荔县两宜镇绿丰源家庭农场的一座冬枣大棚内...
济南市互联网协会,启航! 盛夏的济南,万物勃发,一场关乎城市未来竞争力的“数字集结号”在泉城吹响。 7月8日上午,济南市互联网...
万泰生物:国产九价HPV疫苗定... 首款国产九价HPV疫苗获批上市备受关注。7月8日,万泰生物正式公布我国首款国产九价HPV疫苗“馨可宁...
全力迎战台风“丹娜丝” 平安财... 潮新闻客户端 通讯员 陈思颖 面对台风“丹娜丝”的来袭,平安财险缙云支公司闻“汛”而动,第一时间启动...
术后24小时即可出院!智能机器... “您好,现在请您根据自身情况,描述一下术后疼痛程度,是轻微不适,还是难以忍受呢?”日前,在同济大学附...
中科院院士、细胞生物学家孙大业... 中国科学院院士、细胞生物学家、无党派代表人士、河北师范大学生命科学学院教授孙大业先生,因病医治无效,...
苹果并购两家AI企业,或助力V... 苹果近期在收购市场上动作频频,据AppleInsider报道,引用MacGeneration的消息,...
生成式人工智能对社会科学的机遇... 生成式 人工智能目前正在改变众多不同行业。然而,尚不清楚此类工具会如何影响社会科学研究。 美国杜...
好评中国|汇聚青春力量点亮网络... 在互联网深刻重塑社会肌理的今天,网络空间日益成为信息交互、价值传播、文化赓续的重要载体。作为“数字原...
广东力王申请可变径绕线机专利 ... 金融界2025年7月8日消息,国家知识产权局信息显示,广东力王高新科技股份有限公司申请一项名为“一种...
体育消费“引擎”轰鸣 一头憨态可掬的机器狮子,前进、站立、稽首、鞠躬、转圈圈,完美复刻舞狮场景;各种健身器材上,运动者的心...
广电运通取得云台装置及巡检机器... 金融界2025年7月8日消息,国家知识产权局信息显示,广电运通集团股份有限公司取得一项名为“云台装置...
原创 美... 荷兰代尔夫特理工大学的量子物理实验室曾是全球顶尖研究中心,可现在这里的年轻研究员们正大批前往美国硅谷...
增值逾54倍!竞拍央企剥离资产... 图片来源:图虫创意 7月7日盘后,上海洗霸(603200.SH)公告,计划参与竞拍有研稀土新材料股份...