无损减少80%激活值内存，提升5倍训练序列长度，仅需两行代码_资讯

无损减少80%激活值内存，提升5倍训练序列长度，仅需两行代码

创始人

2025-06-23 20:01:33

0次

本文的第一作者罗琪竣、第二作者李梦琦为香港中文大学（深圳）计算机科学博士生，本文在上海交通大学赵磊老师、香港中文大学（深圳）李肖老师的指导下完成。

长序列训练对于模型的长序列推理等能力至关重要。随着序列长度增加，训练所需储存的激活值快速增加，占据训练的大部分内存。即便使用梯度检查点（gradient checkpointing）方法，激活值依然占据大量内存，限制训练所能使用的序列长度。

来自港中文（深圳）和上海交通大学的团队提出 StreamBP 算法。通过对链式法则进行线性分解和分步计算，StreamBP 将大语言模型训练所需的激活值内存（logits 和 layer activation）降低至梯度检查点（gradient checkpointing）的 20% 左右。

论文标题：StreamBP: Memory-Efficient Exact Backpropagation for Long Sequence Training of LLMs
论文：https://arxiv.org/abs/2506.03077
代码：https://github.com/Ledzy/StreamBP

在相同内存限制下，StreamBP 最大序列长度为梯度检查点的 2.8-5.5 倍。在相同序列长度下，StreamBP 的速度和梯度检查点接近甚至更快。StreamBP 适用于 SFT、GRPO、PPO 和 DPO 等常见 LLM 目标函数。代码已开源，可集成至现有训练代码。

StreamBP 所需储存的激活值和注意力掩码（橙色）大幅低于梯度检查点（橙色 + 白色部分）。

对于 lmhead 层，当以 SFT 或 GRPO 为目标函数时，观察到不同位置的 logits 对于目标函数的影响相互独立。因此，StreamBP 从序列维度分块，每次计算单块损失函数的梯度，从而只需储存单块 logits 和 logits 梯度。

图：StreamBP for SFT

图：StreamBP for GRPO

对于 DPO，由于非线性 sigmoid 函数的存在，每个位置的 logits 对于目标函数的影响并不独立。StreamBP 利用 logits 梯度在序列维度的独立性，分块进行梯度计算。

图：StreamBP for DPO

实验结果

我们在单张 A800-80GB GPU 上测试了不同大小的模型，StreamBP 的最大 BP 序列长度为标准 BP 的 23-36 倍，梯度检查点的 2.5-5.5 倍。

图：不同序列长度下的 BP 峰值内存

在现有 Transformers 框架下，StreamBP 的实现可避免计算掩码部分的 pre-attention score（见论文 3.2.2 部分），在长序列训练下相较于梯度检查点实现了加速。

通过使用 StreamBP，不同目标函数下最大的序列长度得到了大幅提升。在同样的序列长度下，StreamBP 允许更大的批处理大小以加速训练。

表：Qwen 3-4B 单个样本 BP 时间，序列长度为 9000。

在 Deepspeed ZeRO 分布式训练模式下，Distributed StreamBP 比梯度检查点的最大可训练序列长度提升了5—5.6倍。

上一篇：以人工智能技术提升文化创新创造活力

下一篇：原创华为千元机这么选？华为畅享70X或许是最高性价比

热门资讯

“苏适养老”勾勒未来幸福图景 □ 本报记者唐悦走进无锡市梁溪区的适老生活体验馆，只见全球首发的“肌肉外甲”膝动力机器人正辅助...

顺义区残联开展“人工智能背景下... 6月20日，顺义区残联开展“人工智能背景下的助残社会工作服务”培训，推动温馨家园服务向科技化、多元化...

别再乱选手机套餐啦！广电双百套... 在如今这个信息飞速发展的时代，手机套餐就是我们生活的“通信枢纽”，选对了，生活便捷又省心；选错了，麻...

祝贺！我国在轨广电专用传输卫星... 6月20日晚间，我国在西昌卫星发射中心使用长征三号乙运载火箭，成功将中星9C卫星发射升空，卫星顺利进...

祝贺！它将全面实现国产化！将全面实现国产化！从中星9C卫星看我国广播电视专用卫星发展 6月20日晚间，我国在西昌卫星发射中心使...

移远通信牵头共建毫米波雷达生态... 6月18日，在MWC上海期间，移远通信携手岸达科技、上海点艺、恩通达重磅宣布，共同打造开放协同的“毫...

一颗恒星试图从银河系中心出逃！... 一颗编号为HE 0437-5439的超热蓝巨星，正以近乎荒谬的速度——高达每小时300万英里——冲破...

原创华... 当你准备购买一部千元机时，市场上的选择多得让人眼花缭乱。从红米、iQOO到realme，各大品牌几乎...

智能进化，价值重塑：应用现代化... “苟日新，日日新，又日新。” 古老而深刻的哲思，在数字浪潮席卷全球的今日，显得愈发隽永且引人深思。在...

以人工智能技术提升文化创新创造... 蔡新元人工智能是人类发展的新领域，是新一轮科技革命和产业变革的重要驱动力量。今天，人工智能日益融入...

无损减少80%激活值内存，提升... 本文的第一作者罗琪竣、第二作者李梦琦为香港中文大学（深圳）计算机科学博士生，本文在上海交通大学赵磊老...

卫星通信站上移动通信主舞台在刚刚落幕的2025上海世界移动通信大会（MWC上海）上，卫星通信技术正成为展示和讨论的焦点。多位行...

雷军称小米没有计划造油车图片来源：界面图库 6月23日，小米创办人、董事长兼CEO雷军在社交平台回复网友评论时表示，小米没有...

绿源航标灯的光源是如何实现远程... 航标灯需要对光源进行实时监控和管理，不然坏了也不知道，容易出安全事故。现在由于网络通信技术的快速发展...

对话清华大学张亚勤：智能体是大... AI的下一个阶段，是智能体AI。文｜《中国企业家》记者闫俊文编辑｜张晓迪头图摄影｜邓攀 2...

新研究提出：宇宙可能建立在三维... 一项新理论挑战了传统的时空概念，提出宇宙在根本上是由三个时间维度构成的。人们普遍认为，物质、运动...

李想预祝小米YU7大卖：小米Y... 快科技6月23日消息，小米董事长雷军今日发文称，不少朋友问我，小米首款SUV，为什么不做目前最热门6...

南宁多个项目上榜为“智改数转... 近日，自治区工业和信息化厅公布2025年第二批广西“人工智能+制造”产品、垂直领域模型和典型案例名单...

金融机构与科技企业双向奔赴后，... 5万平方米的展台，近300家企业参展，为期三天的2025中国国际金融展已落幕。一个很有趣的现象是，金...

从数据中提炼洞察：构建智能化服... 一、数据驱动服务智能化的底层逻辑在数字化时代，数据已成为构建智能化服务体系的核心生产要素。招商银行...

无损减少80%激活值内存，提升5倍训练序列长度，仅需两行代码

相关内容

热门资讯