研究人员打造BiDoRA一举解决DoRA耦合问题,以高效微调解锁小数据潜力
创始人
2025-08-18 02:01:50
0

如今,像 GPT 系列这样的大模型已经展现出了惊人的通用能力,但要让它们在某个具体领域发挥最大效力,还需要进行“微调”(Fine-Tuning)。传统的“完整微调”方法,需要调整模型中全部的数百亿甚至千亿参数,这不仅需要海量的计算资源(比如数十上百块顶级 GPU),训练时间也十分漫长。因此,“参数高效微调”(PEFT,Parameter-Efficient Fine-Tuning)技术应运而生,它旨在只调整模型中极小一部分的参数,就能达到接近甚至超越完整微调的效果。

在 PEFT 家族中,LoRA 是一个里程碑式的工作。而研究团队关注到,业内最近提出的 DoRA(Weight-Decomposed Low-Rank Adaptation)在 LoRA 的基础上更进了一步。DoRA 的核心思想是,它认为模型权重的更新,可以被分解为“大小”(magnitude)和“方向”(direction)两个独立维度的变化。这个洞察非常深刻,因为它更贴近模型在完整微调时的真实动态。通过这种分解,DoRA 确实在很多任务上超越了 LoRA。

然而,在深入研究 DoRA 的过程中,研究团队发现它虽然方向走对了,但仍然存在一些问题。DoRA 在训练时,是同时优化大小和方向这两个部分的,并且用的是同一份训练数据。研究团队认为这种“耦合”的优化方式会带来两个关键问题:第一,它让模型的能力过于强大,很容易“死记硬背”训练数据,导致在面对新数据时表现不佳,也就是人们常说的“过拟合”。第二,大小和方向的同步更新会形成一种内在的牵制,限制了模型寻找最优解的学习能力。

所以,研究团队这次研究的核心目标非常明确:保留 DoRA 关于权重分解的深刻洞察,但要打破其大小和方向更新过程中的耦合性。因此,其希望设计一种新的训练范式,能够让这两个组件的优化过程分离开来,从而有效抑制过拟合,使其性能表现能再上一个台阶。

针对上面提到的问题,研究团队最终研发出了一种全新的 PEFT 方法,称为 BiDoRA(Bi-level Optimization-Based Weight-Decomposed Low-Rank Adaptation)。它的核心是一种基于双层优化(Bi-level Optimization)的训练框架。

(来源:https://arxiv.org/pdf/2410.09758)

它将原本一体化的训练过程,巧妙地拆分成了两个相互嵌套、异步进行的循环。具体来说,研究团队会把训练数据分成训练集和验证集两部分。在“内层循环”里,先“冻结”住权重的大小(magnitude),只用训练集来学习权重的“方向”(direction)。这一步的目标是,在给定大小的情况下,找到最好的方向。接着,在“外层循环”中,研究团队利用刚刚在内层学到的最优方向,反过来在验证集上评估并更新权重的大小。这一步的目标是,为已经找到的最佳方向,匹配一个最合适的大小。

通过这种方式,研究团队成功地在训练动态上将大小和方向的更新过程解耦,还因此发现了一些新规律和新现象:

首先,他们证实解耦训练能够显著提升模型的泛化能力。实验数据显示,BiDoRA 训练的模型在训练集和测试集上的表现差距(performance gap)远小于 DoRA。同时, 在生物医学领域的极小数据集上(训练数据小于 1000 个),BiDoRA 效果提升显著。在预测肽类是否能穿透血脑屏障(BBB,Blood-Brain Barrier)时,BiDoRA 仅使用全量微调 1/326 的参数,就实现了显著更高的 F1 分数(92.0 对 89.4)。在预测蛋白质热稳定性时,BiDoRA 使用全量微调 1/408 的参数,F1 分数几乎相同(78.2 对 78.4)。BiDoRA 在多项任务中持续优于当前最先进的参数高效微调方法,如 LoRA 和 DoRA。

其次,他们还发现了一个新规律。学界已经有研究表明,在理想的完整微调中,权重大小和方向的更新存在一种负相关的关系。研究团队借助“权重分解分析”这一工具,发现 LoRA 表现为正相关,这解释了它为什么有时效果不佳,而 DoRA 改进了这一点,呈现出-1.784 的负相关。而研究团队的 BiDoRA,得益于彻底的解耦训练,实现了高达-8.042 的负相关性。这意味着 BiDoRA 的训练动态更接近于完整微调,这为它的优异性能提供了强有力的实验支撑。

在论文的同行评审阶段,研究团队收到了来自多位匿名审稿人的专业且中肯的意见。综合来看,审稿人们的赞誉主要集中在以下几个方面:

首先,审稿人普遍认为本次课题的研究动机非常清晰且具有说服力。研究团队精准地指出了现有先进方法(DoRA)中存在的“耦合更新”这一核心缺陷,并以此为切入点展开研究,使得整个工作的逻辑链条非常坚实。

其次,审稿人也对研究团队提出的 BiDoRA 方法的原创性和新颖性给予了高度评价。将双层优化(Bi-level Optimization)这一已在其他领域(如神经架构搜索)验证的有效思想,创造性地应用于 PEFT 领域,并以此来解决权重分解中的耦合问题,这被认为是一个非常聪明且有效的尝试。

再者,审稿人对研究团队实验的全面性和扎实程度印象深刻。他们不仅在多个权威的自然语言理解基准(如 GLUE)上验证了方法的有效性,还将实验扩展到了自然语言生成、命名实体识别,甚至是一些数据量极度稀缺的生物医学任务上。在所有这些场景下,BiDoRA 都展现出了一致的优越性。

研究团队对 BiDoRA 的应用前景非常乐观,尤其是在那些数据资源极其宝贵的领域。在未来的几年内,研究团队认为它可以在生物医学领域产生具体的应用价值,这也正是研究团队在论文中特别进行实验验证的方向。在生物医学研究中,获取高质量、大规模的标注数据往往是极其困难和昂贵的。在这样“极小数据集”的场景下,传统的大模型微调方法极易发生严重的过拟合。而本次方法天生就具有强大的抗过拟合能力,因为它通过双层优化的机制,引入了内部的验证与权衡,迫使模型学习更具泛化性的特征。论文中的实验也清楚地表明,在这些生物医学任务上,BiDoRA 相比其他方法的优势甚至比在数据充足的自然语言处理任务上更为明显。

据了解,在研究团队最初设计出 BiDoRA 的双层优化框架时,其发现 BiDoRA 虽然比 LoRA 要好,但相比 DoRA 的提升并不像理论分析的那么显著。研究团队猜想:会不会是因为他们的双层优化机制,将本就不算多的训练数据进一步分割成了更小的训练集和验证集,导致每个训练循环得到的数据不够多?这时,研究团队立刻联想到了在“神经架构搜索”(NAS,Neural Architecture Search)领域的一个常用技巧。在 NAS 中,研究者们通常会先在一个代理任务上搜索出最优的网络架构,然后会有一个“重训练”(Retraining)阶段:固定住搜索到的这个最优架构,再用全部的训练数据从头开始训练这个架构的权重,以求达到最佳性能。

研究团队决定借鉴这个思想,于是在 BiDoRA 的流程中增加了一个最终的重训练阶段:在双层优化的“搜索阶段”结束后,他们固定住学到的最优的“大小”分量,然后合并原始的训练集和验证集,用这完整的数据集,对“方向”分量进行一次充分的训练。当再次进行加上了重训练步骤的实验后,结果表明,BiDoRA 的性能在几乎所有任务上都获得了显著且一致的提升,完全超越了 DoRA,展现出了研究团队理论预期的强大实力。

在后续研究计划上:

研究团队的第一个方向是计划进一步提升 BiDoRA 的训练效率和理论完备性。正如其在论文的“未来工作”部分提到的,BiDoRA 虽然效果好,但它的双层优化机制引入了额外的计算开销,特别是在计算“超梯度”(hyper-gradient)时。目前,研究团队的实现方式是相对基础的,但学界已经涌现出一些更先进、更高效的超梯度估计算法,比如 SAMA、MixFlow-MG 等。因此,研究团队的下一步计划是,将这些前沿的优化技术集成到 BiDoRA 中,目标是在不牺牲甚至提升性能的前提下,大幅降低其训练时间和计算成本。同时,他们目前更多是通过大量实验经验性地证明了 BiDoRA 在解耦权重更新上的优越性,未来其希望能够从数学上给出一个严格的理论分析,从根本上揭示其工作机理。

第二个方向也是研究团队更期待的一个方向,是将 BiDoRA 更深入、更广泛地应用于生物医学领域。其在当前工作中已经初步验证了它在小数据集上的巨大潜力,这给了他们极大的信心。接下来,研究团队计划与生物、医学领域的专家进行更紧密的合作,将 BiDoRA 作为一个核心工具,去挑战一些更复杂、更前沿的课题。

参考资料:

https://arxiv.org/pdf/2410.09758

排版:刘雅坤

相关内容

热门资讯

秀我中国|来,和机器人足球世界... 世界机器人运动会开幕,足球项目中出场频次颇高的加速进化T1机器人,具备大力射门、运球、守门等技能,不...
AI 赋能国产打印机:批改作业... 来源:滚动播报 (来源:上观新闻) 在今年的世界人工智能大会现场,一款融合了前沿 AI 技术的激光...
活动回顾|风暴实验室:星空的故... 活 动 回 顾 活动回顾 2025年8月13日10:00,“科普实验活动”系列活动在黄山市图书馆顺利...
研究人员打造BiDoRA一举解... 如今,像 GPT 系列这样的大模型已经展现出了惊人的通用能力,但要让它们在某个具体领域发挥最大效力,...
浙江创润取得小克重糖粉下料器专... 金融界2025年8月16日消息,国家知识产权局信息显示,浙江创润机械科技有限公司取得一项名为“小克重...
预言反物质的狄拉克! 1902年8月8日,保罗·狄拉克 英国理论物理学家保罗·阿德里恩·莫莱斯·狄拉克(Paul Adr...
当这届大学生开始“手搓”机器人... 2025世界人形机器人运动会近日在京举办,在场内,一位“受伤退场”的机器人引起了记者注意。这是华北电...
原创 菌... 今天咱来唠唠植物间那些神奇的事儿。你能想象吗,在地下深处,植物们正通过一个神秘的网络悄悄交流,分享着...
五百余名“健将”集结,这场运动... 全球首个以人形机器人为参赛主体的综合性赛事——2025世界人形机器人运动会日前在北京国家速滑馆正式开...
文锦纸制品取得纸板箱加工用开孔... 金融界2025年8月16日消息,国家知识产权局信息显示,宜城市文锦纸制品有限公司取得一项名为“纸板箱...
《云手机平台:流畅便宜好用且性... 一、云手机初体验 随着游戏和移动应用的不断发展,云手机逐渐走进大众视野。云手机,简单来说,就是在...
第三届“面向2050的空天创新... 深圳商报•读创客户端记者 吴吉 通讯员 王颖/文 张近民/图 近日,由中国航空学会、成都流体动力创新...
无人机+机器人+脑力赛车,青少... 文/羊城晚报全媒体记者 梁怿韬 通讯员 王亿依 图、视频/羊城晚报全媒体记者 梁怿韬 暑假期间,不少...
河南煦雨科技取得光纤快速接头专... 金融界2025年8月16日消息,国家知识产权局信息显示,河南煦雨科技有限公司取得一项名为“一种光纤快...
首届世界人形机器人运动会闭幕,... 据央视新闻消息,今天(17日)下午,首届世界人形机器人运动会在国家速滑馆“冰丝带”举行闭幕式。 世...
原创 1... 近日,根据多家科技媒体的消息,国内手机评测机构安兔兔公布了2025年7月份1000—1999元手机性...
AI革命:你的饭碗正在被改写 你知道吗?就在你刷手机的这一刻,人工智能正在悄悄抢走你的饭碗!这不是危言耸听,而是一个正在发生的残酷...
粉笔发布业内首款AI智能音箱 8月15日,粉笔宣布正式推出全新硬件产品——AI智能音箱,深度融合粉笔自研垂域大模型能力,旨在为用户...
华兰股份公布“预灌封护帽、预灌... 天眼查APP显示,近日,江苏华兰药用新材料股份有限公司申请的“预灌封护帽、预灌封护帽覆膜装置及覆膜方...
中农信投在上海宝山推出城市更新... 为配合上海市推动老旧工业区、商业商务区、风貌保护区更新改造提升城市品质,中农信投(上海)供应链有限公...