DeepSeek新注意力机制引热议!梁文锋亲自提交预印本,目标明确降低计算成本
创始人
2025-02-19 14:41:08
0

具体来说,新论文提出了一种可原生训练的稀疏注意力机制,名为 NSA(Native Sparse Attention)。

目的很明确:解决大模型上下文建模中,标准注意力机制造成的计算成本高昂的问题。

效果也很明显:

实验表明,在解码64k上下文时,基于softmax架构的注意力计算占到总延迟的70%-80%。而在不影响性能的前提下,NSA在64k上下文的解码、前向传播和反向传播中均实现了显著加速。

其中 前向传播速度最高可提升9倍,反向传播速度最高可提升6倍,解码速度提升可达11.6倍

正如不少网友提到的,NSA意味着DeepSeek找到了优化注意力的方法,可以用更少的算力更加高效地训练大模型,并且,他们还把这些“秘籍”公开了出来。

刚刚加入OpenAI不久的ViT核心作者Lucas Beyer也不禁开麦:粉了粉了。

另一点受到关注的是,这篇论文的作者可以说是DeepSeek系列大模型原班人马,梁文锋本人亦在其列——

论文还是梁文锋亲自传上arXiv的。

实现超快速长上下文训练推理

来看论文细节。

NSA的核心方法包括:

  • 动态分层稀疏策略

  • 粗粒度Token压缩

  • 细粒度Token选择

整体框架上,NSA是用更紧凑的键值对替代原始注意力中的键值对,通过压缩、选择和滑动窗口(sliding window)三种映射策略得到优化注意力输出,保持高稀疏率。

采取分层设计的好处是:

  • 减少计算量的同时,能有效避免信息丢失,是模型在处理长序列时既高效又精准。

  • 能够在保证全局上下文感知的同时,精确捕捉局部信息,提升模型的表现。

  • 可根据任务需求和上下文动态调整稀疏程度

具体到算法设计上, 粗粒度Token压缩通过将连续的Token聚合成块级表示,可以捕获全局语义信息,同时减少注意力的计算负担。

细粒度Token选择从序列中选择最重要的Token,保留关键的局部信息。

滑动窗口则避免了局部模式的过度优势——在注意力机制中,局部模式往往会主导学习过程,阻止模型有效地从压缩和选择Token中学习。

为了实现以上创新,DeepSeek官方还强调了两方面的关键工作:

  • 硬件对齐系统:针对张量核心利用率和内存访问优化块级稀疏注意力,确保均衡的算术强度。

  • 训练感知设计:通过高效算法和向后运算符实现稳定的端到端训练。

研究人员用27B参数规模的模型进行了实验,结果显示,全注意力机制和NSA在预训练损失方面,都表现出了稳定的收敛性,并且NSA实现了更低的损失值。

在包含知识、推理和编码能力的多个通用基准测试中,与全注意力模型相比,NSA模型性能不降反超,在推理任务DROP中提升尤为明显。

长上下文方面,64k上下文的“大海捞针”测试里,NSA完美过关。

在需要复杂长下文推理的各项任务中,NSA的表现也基本超过了包括全注意力模型在内的基线模型。

而在思维链推理评估中,通过知识蒸馏和监督微调,在8k和16k上下文设置下,AIME任务中NSA-R的得分均超过了全注意力模型。

这表明,NSA预训练的稀疏注意力模式能有效捕捉长距离逻辑依赖,且其硬件对齐设计可支持不断增加的推理深度。

效率方面,在8-GPU A100系统上,NSA的训练加速效果会随上下文长度的增加而增强。在64k上下文长度时,前向传播速度最高可提升9倍,反向传播速度最高可提升6倍,解码速度提升可达11.6倍。

有意思的是,在马斯克推出Grok 3炸场之时,不少人感慨:“大力出奇迹”在大模型训练里仍然奏效——

在Grok 3成为大模型竞技场首个突破1400分模型的背后,是惊人的10万卡(后来扩展到20万)H100集群。

但现在,DeepSeek为代表的效率派们显然在引发另一种方向上的思考:通往AGI的路,可以更高效,更本地化,更人人可用。

论文地址:

https://arxiv.org/abs/2502.11089

评选报名2025年值得关注的AIGC企业&产品

下一个AI“国产之光”将会是谁?

本次评选结果将于4月中国AIGC产业峰会上公布,欢迎参与!

相关内容

热门资讯

涵盖95个重点产业化载体,成都... 如果说工业是经济发展的“压舱石”,那么空间载体就是工业发展的“硬支撑”。如何做强产业化载体的承载功能...
亚马逊、谷歌、微软等60家公司... 多知7月1日消息,据 Axios 消息称,美国政府周一宣布了一项“人工智能教育承诺”,超过 60 家...
自研技术畅通物流微循环——九识... 早上5点,在内蒙古河套平原巴彦淖尔磴口县,货箱上标注“九识ZELOS”的无人车装满近千票货物出发,向...
江苏畅颌取得一种独立式冷镦夹钳... 金融界2025年7月1日消息,国家知识产权局信息显示,江苏畅颌汽车零部件有限公司取得一项名为“一种独...
荣缘石化取得伸缩式鹤管专利,提... 金融界2025年7月1日消息,国家知识产权局信息显示,连云港市荣缘石化设备制造有限公司取得一项名为“...
2025年中国无人机竞速联赛第... 6月30日,2025年中国无人机竞速联赛(苏州站)在苏州市相城区苏州国际会议酒店隆重开幕!国际航联模...
压缩图片文件怎么弄?七个方便高... 在当今数字化时代,图片的使用场景愈发广泛,无论是用于社交分享、工作文档还是网站建设,图片文件的大小常...
AI智能体遭遇责任壁垒,Mix... 企业在关键应用中部署AI智能体面临挑战时,一种更加务实的新模式正在兴起,该模式将人类重新置于控制地位...
子洲县中药材智慧大棚育苗:科技... 阳光讯(郑懿 记者 高小雨)在子洲县,一座占地 500 多平方米的中药材智慧大棚正悄然改变着传统的育...
铜陵有色获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示铜陵有色(000630)新获得一项实用新型专利授权,专利名为“...
合成化学研究新范式:当AI“大... ·用人工智能(AI)来设计实验甚至在某些场合取代化学家的“直觉”,用机器人等自动化技术来高效做实验,...
原创 人... 咱生活的地球,一直在以大约 29.783 千米 / 秒的速度绕着太阳公转,差不多每 365 天就能转...
AI医疗重磅!华为+瑞金医院宣... 数据是个宝 数据宝 投资少烦恼 6月以来,AI医疗相关事件重磅不断。 6月30日,上海瑞金医院携手华...
小米16系列影像模组设计曝光 ... 【CNMO科技消息】7月1日,有数码博主曝光国产新旗舰的影像模组设计并透露了部分影像信息。根据网友猜...
疯狂挖人的扎克伯格推“超级智能... Meta首席执行官扎克伯格。图片来源:视觉中国 界面新闻记者 | 宋佳楠 当地时间6月30日,...
某OS连夜上线“苹果主题”?安... 十八年前苹果推出了第一款智能手机,从此iPhone稳坐手机行业的高端地位。可以说是流水的安卓,铁打的...
原创 在... 如果一名宇航员在太空中牺牲,他的身体漂浮在无边的宇宙中,身上穿着那套坚不可摧的宇航服。你觉得他会腐烂...
天正电气获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示天正电气(605066)新获得一项实用新型专利授权,专利名为“...
让充电宝上不了飞机的“致命电芯... 一夜之间,所有在外壳上未展示 3C 标识的充电宝,都没有办法上飞机了,这些充电宝好端端的都变成了无用...
九牧王获得实用新型专利授权:“... 证券之星消息,根据天眼查APP数据显示九牧王(601566)新获得一项实用新型专利授权,专利名为“一...