无损减少80%激活值内存,提升5倍训练序列长度,仅需两行代码
创始人
2025-06-23 20:01:33
0

本文的第一作者罗琪竣、第二作者李梦琦为香港中文大学(深圳)计算机科学博士生,本文在上海交通大学赵磊老师、香港中文大学(深圳)李肖老师的指导下完成。

长序列训练对于模型的长序列推理等能力至关重要。随着序列长度增加,训练所需储存的激活值快速增加,占据训练的大部分内存。即便使用梯度检查点(gradient checkpointing)方法,激活值依然占据大量内存,限制训练所能使用的序列长度。

来自港中文(深圳)和上海交通大学的团队提出 StreamBP 算法。通过对链式法则进行线性分解和分步计算,StreamBP 将大语言模型训练所需的激活值内存(logits 和 layer activation)降低至梯度检查点(gradient checkpointing)的 20% 左右。

  • 论文标题:StreamBP: Memory-Efficient Exact Backpropagation for Long Sequence Training of LLMs
  • 论文:https://arxiv.org/abs/2506.03077
  • 代码:https://github.com/Ledzy/StreamBP

在相同内存限制下,StreamBP 最大序列长度为梯度检查点的 2.8-5.5 倍。在相同序列长度下,StreamBP 的速度和梯度检查点接近甚至更快。StreamBP 适用于 SFT、GRPO、PPO 和 DPO 等常见 LLM 目标函数。代码已开源,可集成至现有训练代码。

StreamBP 所需储存的激活值和注意力掩码(橙色)大幅低于梯度检查点(橙色 + 白色部分)。

对于 lmhead 层,当以 SFT 或 GRPO 为目标函数时,观察到不同位置的 logits 对于目标函数的影响相互独立。因此,StreamBP 从序列维度分块,每次计算单块损失函数的梯度,从而只需储存单块 logits 和 logits 梯度。

图:StreamBP for SFT

图:StreamBP for GRPO

对于 DPO,由于非线性 sigmoid 函数的存在,每个位置的 logits 对于目标函数的影响并不独立。StreamBP 利用 logits 梯度在序列维度的独立性,分块进行梯度计算。

图:StreamBP for DPO

实验结果

我们在单张 A800-80GB GPU 上测试了不同大小的模型,StreamBP 的最大 BP 序列长度为标准 BP 的 23-36 倍,梯度检查点的 2.5-5.5 倍。

图:不同序列长度下的 BP 峰值内存

在现有 Transformers 框架下,StreamBP 的实现可避免计算掩码部分的 pre-attention score(见论文 3.2.2 部分),在长序列训练下相较于梯度检查点实现了加速。

通过使用 StreamBP,不同目标函数下最大的序列长度得到了大幅提升。在同样的序列长度下,StreamBP 允许更大的批处理大小以加速训练。

表:Qwen 3-4B 单个样本 BP 时间,序列长度为 9000。

在 Deepspeed ZeRO 分布式训练模式下,Distributed StreamBP 比梯度检查点的最大可训练序列长度提升了5—5.6倍。

相关内容

热门资讯

“苏适养老”勾勒未来幸福图景 □ 本报记者 唐 悦 走进无锡市梁溪区的适老生活体验馆,只见全球首发的“肌肉外甲”膝动力机器人正辅助...
顺义区残联开展“人工智能背景下... 6月20日,顺义区残联开展“人工智能背景下的助残社会工作服务”培训,推动温馨家园服务向科技化、多元化...
别再乱选手机套餐啦!广电双百套... 在如今这个信息飞速发展的时代,手机套餐就是我们生活的“通信枢纽”,选对了,生活便捷又省心;选错了,麻...
祝贺!我国在轨广电专用传输卫星... 6月20日晚间,我国在西昌卫星发射中心使用长征三号乙运载火箭,成功将中星9C卫星发射升空,卫星顺利进...
祝贺!它将全面实现国产化! 将全面实现国产化!从中星9C卫星看我国广播电视专用卫星发展 6月20日晚间,我国在西昌卫星发射中心使...
移远通信牵头共建毫米波雷达生态... 6月18日,在MWC上海期间,移远通信携手岸达科技、上海点艺、恩通达重磅宣布,共同打造开放协同的“毫...
一颗恒星试图从银河系中心出逃!... 一颗编号为HE 0437-5439的超热蓝巨星,正以近乎荒谬的速度——高达每小时300万英里——冲破...
原创 华... 当你准备购买一部千元机时,市场上的选择多得让人眼花缭乱。从红米、iQOO到realme,各大品牌几乎...
智能进化,价值重塑:应用现代化... “苟日新,日日新,又日新。” 古老而深刻的哲思,在数字浪潮席卷全球的今日,显得愈发隽永且引人深思。在...
以人工智能技术提升文化创新创造... 蔡新元 人工智能是人类发展的新领域,是新一轮科技革命和产业变革的重要驱动力量。今天,人工智能日益融入...
无损减少80%激活值内存,提升... 本文的第一作者罗琪竣、第二作者李梦琦为香港中文大学(深圳)计算机科学博士生,本文在上海交通大学赵磊老...
卫星通信站上移动通信主舞台 在刚刚落幕的2025上海世界移动通信大会(MWC上海)上,卫星通信技术正成为展示和讨论的焦点。多位行...
雷军称小米没有计划造油车 图片来源:界面图库 6月23日,小米创办人、董事长兼CEO雷军在社交平台回复网友评论时表示,小米没有...
绿源航标灯的光源是如何实现远程... 航标灯需要对光源进行实时监控和管理,不然坏了也不知道,容易出安全事故。现在由于网络通信技术的快速发展...
对话清华大学张亚勤:智能体是大... AI的下一个阶段,是智能体AI。 文|《中国企业家》记者 闫俊文 编辑|张晓迪 头图摄影|邓攀 2...
新研究提出:宇宙可能建立在三维... 一项新理论挑战了传统的时空概念,提出宇宙在根本上是由三个时间维度构成的。 人们普遍认为,物质、运动...
李想预祝小米YU7大卖:小米Y... 快科技6月23日消息,小米董事长雷军今日发文称,不少朋友问我,小米首款SUV,为什么不做目前最热门6...
南宁多个项目上榜 为“智改数转... 近日,自治区工业和信息化厅公布2025年第二批广西“人工智能+制造”产品、垂直领域模型和典型案例名单...
金融机构与科技企业双向奔赴后,... 5万平方米的展台,近300家企业参展,为期三天的2025中国国际金融展已落幕。一个很有趣的现象是,金...
从数据中提炼洞察:构建智能化服... 一、数据驱动服务智能化的底层逻辑 在数字化时代,数据已成为构建智能化服务体系的核心生产要素。招商银行...