DeepSeek的一小步 国产AI芯片生态突围的一大步
创始人
2025-08-31 19:42:44
0

转自:中国经营网

中经记者 李玉洋 上海报道

在人工智能训练和推理加速的竞赛中,浮点数(Floating Point)的表示方式正成为关键突破口。

随着DeepSeek-V3.1的发布,算力“破壁人”——深度求索(DeepSeek)在这方面更进一步:继成功训练出世界首个使用FP8(8位浮点数)精度的开源大模型DeepSeek-V3后,在DeepSeek-V3.1中又使用了UE8M0 FP8 Scale的参数精度,并置顶留言“UE8M0 FP8是针对即将发布的下一代国产芯片设计的”。

UE8M0 FP8是什么?下一代国产芯片又是什么?这个充满谜团的声明带火了UE8M0 FP8,也迅速传导至A股资本市场,国产芯片及半导体上市公司股价应声大涨,其中寒武纪(688256.SH)一路高歌猛进,总市值已跃居科创板头名。

《中国经营报》记者注意到,DeepSeek V3/R1、Kimi-K2等主流开源大模型均原生态支持FP8的低精度格式,这代表了低精度量化在未来AI大模型领域中的重要性。

“DeepSeek距离上次的版本发布已经有段时间了,所以这一轮的发布特别受到关注。UE8M0 FP8指的是为中国市场而特别定制的模型格式,此格式对中国的芯片厂商比较友好,基于它们的芯片规格而设置。”行业研究机构Omdia人工智能首席分析师苏廉节告诉记者。

事实上,DeepSeek已经成为一个游戏规则的改变者,改变了大模型竞赛“谁拥有算力谁才能胜出”的游戏规则。

对于DeepSeek针对下一代国产芯片引入UE8M0 FP8 Scale参数精度的意义,摩尔线程方面表示,意义在于“能够充分发挥已量产的国产芯片架构特性,通过国产大模型和国产芯片协同设计优化,实现1+1>2”。

东莞证券在研报中指出,该格式通过更高的灵活度支持复杂模型推理,提升芯片的解码效率与运算能力,为国产芯片适配更大模型提供技术路径,国产AI算力生态有望加速成型。

实现两倍的浮点算力提升

计算机里的小数是用科学计数法表示,只不过不是10的次方,而是2的次方。浮点数则是计算机用于表示小数的核心手段,由符号位(Sign)、指数(Exponent)和尾数(Mantissa)三部分构成。其中,符号位决定正负,指数决定小数点的位置,尾数影响精度。

在AI计算领域,数据精度格式长期被国际巨头所主导。比如眼下被业内推崇的FP8(FP代表浮点数,8代表数据用8bit即8位0、1),是一种较新的数据格式,能显著降低显存占用和计算资源需求,同时保持较高的计算精度。

DeepSeek在开源社区Hugginface放出信息:DeepSeek-V3.1使用UE8M0 FP8缩放数据格式进行训练,以确保与微缩放数据格式兼容。这里所谓“微缩放数据格式”,即业界的Microscaling FP8(MXFP8)标准。这是Open Compute Project在2023年发布的Microscaling(MX)Formats Specification v1.0里定义的8bit微缩块格式。

UE8M0是FP8的一种特殊的数字表示格式。U表示没有符号,E8表示8位指数,M0表示没有尾数。DeepSeek在V3.1模型中提出的UE8M0 FP8,相当于一条别人没走过的路。有观点认为,DeepSeek-V3.1把原本只在硬件/内核实现层面存在的scale表达方式,提升到模型部署和训练标准,并适配国产下一代芯片,需要说明的是,UE8M0 FP8并非DeepSeek独创,但DeepSeek通过DeepGEMM开源库实现了工程化突破,为整个国产生态在大模型中的落地提供了可能。

摩尔线程方面表示,UE8M0是指无符号8位指数的FP8格式,用于对FP8张量数据进行分块缩放,提升表达精度;通过提升FP8张量表达精度,来提升大模型训练推理的精度。

“摩尔线程旗舰AI训推产品MTT S5000是国内首批原生支持FP8并已大规模量产的GPU。”摩尔线程方面表示,其MUSA架构原生支持硬件FP8张量加速计算,能完美支持UE8M0 FP8 Scale,利用硬件原生FP8,相对于传统的FP16计算能够实现两倍的浮点算力提升、访存和通信带宽效率提升和存储容量利用率提升,同时最优化张量表达精度。

苏廉节指出,UE8M0 FP8是特别为中国芯片厂商准备的,尽管它的精度没常规的FP8高,也更依赖于训练、量化、校准等算法补偿和硬件支持。

截至目前,记者了解到,寒武纪、华为昇腾、海光、沐曦、摩尔线程等芯片公司支持FP8。

国产算力生态协同的积极进展

曾几何时,“大模型需大力出奇迹”“精度不能降低,否则模型会崩”的论调左右着行业认知,彼时业内多采用如FP32、FP16或BF16这样的传统浮点格式。

然而,在AI训练和推理方面,高精度格式向低精度格式过渡的趋势已经出现。比如,英伟达开发者论坛上发布的一篇技术博客展示了FP8格式的高效性,它能够在不牺牲性能的情况下将显存占用率减半。

值得一提的是,英伟达多年来也一直用低精度数字表示法提升推理和训练效率,并具有强大的生态推动力,包括DeepSeek使用的FP8和微软使用的FP4,都是由英伟达率先产品化并推向市场。

据壁仞研究院研究人员观察,自OpenAI开源首个原生态支持FP4格式的GPT-OSS系列大模型,AI领域实际上已进入低精度计算时代。

“在AI领域中,特别是大模型场景下,模型普遍对数值精度不敏感,不像HPC领域中需要FP64甚至更高的精度格式。从实践来看,模型的参数量规模远比高精度带来的收益要大,这一点在如今混合专家大模型的时代得到很好的验证,包括目前大部分的主流开源大模型均采用MoE的结构。”壁仞研究院研究人员这样总结。

DeepSeek对UE8M0的调整其实提供了FP8格式的变体,可以进一步降低对计算能力、存储和带宽的需求。有观察人士表示,中国的人工智能产业正在进入一个软硬件紧密合作的新时期。中国芯片公司可以逐步建立自己的FP8生态系统。UE8M0 FP8的设计能“最大限度地利用硬件计算能力”。

“这是国产算力生态协同的积极进展的体现。”清程极智CEO汤雄超表示。

汤雄超还指出,过去,企业大模型落地的一大痛点是“最先进的模型与最难获取的硬件绑定”,目前这个情况已经获得一定程度的改善。

其中一点得益于国产算力芯片、国产开源模型以及国产推理引擎的生态协同。他还提到,中国工程院院士、清华大学教授郑纬民在今年WAIC(世界人工智能大会)上提到,大模型推理引擎是人工智能产业竞争的关键,因为推理引擎是最终决定什么模型能够部署什么芯片的关键一环。

今年年初,清程极智推出的赤兔推理引擎率先实现了国产算力运行FP8原生精度Deepseek-V3模型;而本次最新发布的Deepseek-V3.1模型,赤兔推理引擎也在发布当天实现了昇腾、沐曦、海光等国产算力芯片的适配。

“本次DeepSeek新模型使用UE8M0数据格式有利于充分发挥下一代国产算力芯片的潜能。我们相信随着中国人工智能行业的不断发展,国产芯片+国产引擎+国产模型的生态协同将不断深化,最终让用户第一时间用上部署在国产算力上的国产大模型。”汤雄超表示。

相关内容

热门资讯

上海交大有座虚拟电厂|新民·科... 来源:滚动播报 (来源:上观新闻) 上海交通大学国家电投智慧能源创新学院搭建的虚拟电厂运营仿真三...
数据基础设施互联互通成果正式发... 8月28日,国家数据局在2025中国国际大数据产业博览会“数据基础设施交流活动”上发布国家数据基础设...
原创 太... 星际天体3I/ATLAS的异常特征持续引发学界关注。该星际访客自2025年7月由ATLAS巡天系统捕...
打工人的净土告急?东航免费Wi... 在快节奏的现代生活中,一片被视为精神避风港的净土正悄然发生变化。近日,中国东方航空公司在其“空中快线...
开学消费热!国补+专属优惠 学... 来源:市场资讯 (来源:北青网-北京青年报) 眼下正值开学季,在国补等优惠活动的带动下,各类3C产品...
沃尔玛推出人工智能“超级代理”... (央视财经《天下财经》)据美国CNBC30日报道,沃尔玛宣布推出一套由人工智能驱动的“超级代理”,旨...
青岛即墨:2025年全国科普月... 今年9月是修订后的《中华人民共和国科学技术普及法》正式实施以来的首个全国科普月。8月27日,由即墨区...
Connect大会日程公布,M... Meta年度开发者大会的日程安排,强烈暗示出其首款带有显示功能的消费级智能眼镜发布在即。 Meta最...
原创 中... 1972年,美国宇航员从月球返回之后,一直到现在已经50多年了,人类都没有再踏足月球。 而最近...
上海科学会堂新推“科学实验屋”... 上海科学会堂在近日迎来了一项专为青少年设计的创新科普项目——“科学实验屋”的首次亮相。与此同时,20...
英特尔公布SDC专利:多核协同... 近日,网络上曝光了英特尔一项编号为EP4579444A1的专利,名为“软件定义超级核心”(SDC)。...
DeepSeek的一小步 国产... 转自:中国经营网 中经记者 李玉洋 上海报道 在人工智能训练和推理加速的竞赛中,浮点数(Float...
微纪录片《馆藏“显眼包”》——... 纪录片《馆藏“显眼包”》剧照。资料图片 微纪录片《馆藏“显眼包”》名字很有趣,在文博题材影视里显得别...
专访中欧方跃:AI重塑人机关系... 21世纪经济报道记者李览青、实习生王罕 当生成式AI掀起新一轮智能变革,企业已经逐步从数字时代的组...
鼎泰高科获得发明专利授权:“一... 证券之星消息,根据天眼查APP数据显示鼎泰高科(301377)新获得一项发明专利授权,专利名为“一种...
预告|在地层深处为人类装上一双... 由中国科学院和广东省共同建设的江门中微子实验(JUNO),在广东省江门开平市成功完成2万吨液体闪烁体...
英伟达Jetson Thor打... 为加速自主机器发展,英伟达发布了Jetson AGX Thor,这是专为机器人和物理设备设计的最强大...
Apple Store 官方旗... 8月29日,观察者网获悉,Apple Store官方旗舰店于抖音商城盛大开幕。用户于抖音商城,可探索...
上合组织天津峰会丨新闻中心里的... 2025年上海合作组织峰会于8月31日至9月1日在天津举行,峰会新闻中心的多款机器人吸引了众多关注。...
铂铱合金显影环回收|那些被忽视... 在一次与医院器械科老师聊天时,他随口提到一个细节:“我们库房里堆着几十根报废的射频消融导管:回收+💚...