原创 英特尔LunarLake架构解析:单核暴增、Xe2首秀
创始人
2024-06-05 21:24:27
0

2024年6月初,英特尔方面在COMPUTEX展会期间正式公布了传闻许久的LunarLake平台具体信息。

作为英特尔的下一代低功耗笔记本电脑计算平台,LunarLake的定位毫无疑问是接替现在的MeteorLake。但从它的具体设计上来说,LunarLake又并非简单地基于本世代进行的规格增强,因为它的变化实在是太大、甚至可以说是有点“颠覆”。

那么,这一世代的英特尔移动平台究竟是如何设计,它又会带来产品形态、技术路线上怎样的影响呢?接下来,就让我们一起来看看刚刚公布的LunarLake架构相关信息吧。

变化综述:4+4CPU、集成内存、NPU性能暴增

首先,我们简述一下LunarLake的几大特征。

在CPU方面,LunarLake采用了最高4P+4E的设计。不得不说这其实挺让人意外,因为上一代的MeteorLake最多可是拥有6P+8E+2LPE的16核CPU,因此英特尔如何用一半的核心数量实现性能提升,显然会是这次的重点。

在GPU方面,LunarLake一如我们此前猜测的那样,集成了全新的Xe2架构核显。它除了更大的GPU规格之外,一个很显著的变化,就是重新加入了之前在“核显版”ARC上被删掉的XMX矩阵计算单元。

与此同时,LunarLake也成为英特尔历史上第二款集成内存的CPU设计。之所以说是第二款,是因为在之前的13代酷睿平台上,已经有了i9-13905H这款带有实验性质、采用“超短内存布线”设计的方案存在。当时它就已经证明,将内存直接集成在CPU基板上,可以很容易地换来比常规内存或者主板焊接内存高得多的频率(因为布线更短、干扰就更少,有利于使用更高频的颗粒)。LunarLake显然便是这种设计思路的“推广化”应用。

最后,LunarLake的内置NPU规格也从前代的10TOPs,一跃提升到了最高48TOPs。而且它的GPU现在也具备高达67TOPs的AI性能,再加上5TOPs算力的CPU,总计便能达到120TOPs的“平台AI算力”。

很显然,LunarLake明显是一款迎合当下“AI PC”潮流的处理器设计。但比起AI特性,它的其他一些部分可能更加值得关注。

“超宽型”CPU设计,小核已能达到过去大核得性能

LunarLake“凭什么”敢于用4+4核的CPU设计?其中一个很大的原因,就是它的CPU架构迎来了巨大改动。特别是其中的E核(能效核、小核),性能相比前代更是提升了2-4倍之多。所以哪怕只有4核心,实际性能已经未必输给前代的8E配置了。与此同时,它的P核这一次改动也不小。

首先是E核。LunarLake此次采用了全新的E核设计,它取消了前代MeteorLake里位于低功耗岛里面的LPE(超低功耗能效)核心,因此相当于“回归”了从12代酷睿开始的“P+E”混合架构。这也就意味着LunarLake的E核这一次既要用更少的核心数量实现足够高的峰值性能,又要能够在低频率运行时做到极低的功耗,以取代之前LPE核心的功用。

那么它是怎么做到的呢?简单来说,这源自新一代的“Skymont”架构。而它的变化用一个字其实就可以形容,那就是“宽”。

与前代的E核相比,Skymont架构的解码单元采用了3*3的9宽度设计,比前代增加了足足50%。

同时,它的乱序执行引擎也大幅加宽。其分配宽度从6发射改成了8发射,指令退役单元从8宽度倍增到16宽度,乱序执行窗口的重定序缓冲(ROB)容量从256大幅增至416个指令。除此之外,更深的指令队列长度、更大的加载和存储缓冲区,以及多达26个预取接口,都使得Skymont架构在各种意义上来说的核心规模,都已经超过了名称相似的经典架构Skylake。

这里还有个很有意思的的伏笔,那就是Skymont架构这次内置了四组128bit的浮点和SIMD矢量单元。嗯,四组128bit,相信大家懂得都懂,看来AVX512、或者更准确地来说AVX10.1指令集降临消费级E核的日子,或许是不远了。

根据英特尔方面公布的相关数据来看,Skymont架构E核现在的单核整数IPC相当于前代LPE节能核138%的水平,浮点性能则是168%。

算上频率增长带来的性能提升之后,全新的E核现在每一个核心已经可以顶过去2个低功耗核的水准,甚至是在低功耗范围上胜过13代酷睿的Raptor Cove大核。换句话说,LunarLake现在的每一颗能效核,都有着比过去“性能核”还要高的同频性能、同时还能兼顾到“LPE”级别功用的超低功耗。而这,便是它敢于只设计四个E核的底气了。

更大更强的性能核,架构设计上还有伏笔

讲完了LunarLake的能效核,接下来我们来说说它的性能核,也就是俗称的P核、大核。

与能效核一样,英特尔此次也完全重新设计了新处理器的性能核架构,现在它使用的是名为“Lion Cove”的新架构。

与Skymont一样,更宽更大的并发处理能力也是Lion Cove架构的主要改进思路。比如它的前端部分将预测区块增大了8倍之多,拥有更宽的预取单元,同时还增加了微操作的缓冲容量。

而在执行单元部分,Lion Cove将分配/重命名单元的宽度从6增加到8个,指令退役单元的宽度从8个增加到12个,指令窗口深度从512增加到576,同时执行接口也从12个增加到18个。

与此同时,Lion Cove架构现在拥有更大规模的整数执行设计,它的算数逻辑单元从5个增加到6个,64*64乘法单元从1个增加到3个。

而在浮点部分,Lion Cove的256bit SIMD单元也从3个增加到了4个,浮点除法器数量翻倍,同时还降低了乘加运算的指令延迟。此外值得注意的是,大家都知道隔壁AMD是用两个256bit SIMD单元去实现的AVX512指令集兼容,而英特尔这次将Lion Cove内部的256bit SIMD单元数量增加为4组,也算是再次暗示了未来512bit向量指令集在消费级CPU上回归的可能。

或许是为了更好地应对更宽、吞吐量更大的架构设计,英特尔还首次在Lion Cove架构里引入了大容量的L0缓存。当然,其实说他们是增加了新的“L1.5”缓存或许更准确。因为从本质上来说,现代CPU其实都会带有很小的L0(通常只有几KB、甚至不到1KB)用于存储微操作指令。而从Lion Cove与前代Redwood Cove(注:MeteorLake的性能核)的对比中就不难发现,新的缓存实际上相当于在L1和L2中间加入了新的缓冲层,以缓解更大、但循环周期更长的L2对延迟造成的影响。

从官方公布的数据来看,Lion Cove性能核架构的IPC比前代提升大约在14%,而且尤其在低频部分的优势会更加明显、接近20%。

放弃超线程,但多线程能效反而得以大增

除了更宽的架构设计,LunarLake的CPU部分这次还有一个很大的变化,那就是取消了性能核的超线程功能。

需要注意的是,根据英特尔方面的说法,取消超线程并不一定是架构层面的硬件不支持,主要是出于平台能效比做的决定。因为他们发现,对于如今的“性能核”来说,增加超线程功能可以提供大约30%的多线程增益,但同时会多消耗20%的功耗。

但是由于LunarLake的能效核性能比过去一下子强了太多,这就使得性能核的超线程单元相比之下反而就很“不划算”了。因为现在新处理器的能效核与性能核之间的差距,已经没有过去那么大,所以他们的办法就是直接用能效核去承担更多的多线程运算。

与此同时,LunarLake处理器现在拥有大幅改进的“线程调度器”和电源管理特性。它的小核现在具备单独的电源管理单元,同时大核的主频调节步进不再是过去的100MHz、而是细化为可以按照16.67MHz为一个步进、进行频率的自动调整。

这样一来,一方面操作系统(目前主要是Windows 11的最新版本)可以更加清楚地“知道”,什么类型的程序应该被放在什么种类的核心上运行,从而避免过去性能核动不动被低功耗程序所激活,白白浪费功耗的情况出现。

另一方面,当笔记本电脑处于受限功耗场景(比如电池模式、或者低噪声散热模式)时,新的处理器可以尽可能地根据实时性能需求更细密地调整主频,从而解决了过去粗放式的睿频机制所导致,低功耗模式下主频太低、性能不够用的问题。

核显补齐短板,内存设计杜绝“简配”

最后,我们来聊聊LunarLake这一代的核显部分设计。

实际上,LunarLake的核显会加回XMX单元这件事,我们三易生活很早之前就已经猜到。因为对现代的Intel ARC独显来说,XMX单元不仅是重要的AI计算资源,而且对于游戏内的AI超分、AI HDR等最新的画面增强功能,也会提供很大的帮助。

不过在具体的架构上,LunarLake这次集成的Xe2 GPU架构又绝非是简单地“加回XMX单元”。因为除此之外,它还大幅提升了内部渲染切片的吞吐率,将纹理预取和网格遮罩性能都增加到了原来的3倍。

与此同时,新的GPU内核也同样采用了“更大更宽”的改进思路。其采样吞吐量、渲染吞吐量全部翻倍,像素色彩缓冲增大了33%。同时英特尔还全面重新设计了Xe2的光追引擎,大幅提升了光追的计算效率,降低了开启光追之后的帧率损失。

根据官方公布的数据显示,与前代Xe架构的ARC核显相比,LunarLake的Xe2架构在单时钟周期下的光追性能达到了前代的1.6倍,采样反馈性能为前代2.7倍,网格渲染性能可达4倍以上。同时得益于XMX单元的引入,在多个AI计算场景下,Xe2的同频性能都能达到前代的4倍。

这里特别值得一提的是,Xe2架构增加了对于Excute Indirect功能的硬件支持。而这则是最新版Direct 12里引入的技术特性,它完全改变了GPU的工作方式,让GPU不需要再等待CPU的指令,可以自主地“安排”高并发的draw和dispatch任务。

根据实测数据显示,与过去依赖CPU进行“指挥”的GPU架构相比,Xe2的这一改进使得它在新版系统下的dispatch速度提升了7倍、draw速度提升了12.5倍,毫无疑问堪称是革命性的增强。

当然大家都知道,要想充分地发挥核显性能,足够高带宽的内存是必须的。在之前的MeteorLake上,英特尔虽然提供了对LPDDR5X-7500内存的支持,但并未强制OEM厂商使用这种高频内存。因此也给了部分品牌“节约成本”,换用普通DDR5-5600内存的可能性。

但到了LunarLake这一代,情况就完全改变了。因为新处理器直接采用了集成内存的设计,可以将16GB或32GB的LPDDR5X-8533内存集成到CPU基板上。

虽然可以说这样的设计也就意味着LunarLake不可能再去适配更大的内存,不过没关系,考虑到LunarLake的定位,它对应的同世代“高性能向”移动平台,注定会是同样在今年登场的“箭湖”变体。而后者采用了与LunarLake同宗同源的CPU核心设计,并且几乎一定可以支持更大容量的内存配置,以满足那些移动工作站,以及下一代游戏本的需求。

总结:主打低功耗,但也带来了新的希望

总的来说,LunarLake可以说是英特尔这几年以来变化最大的一次处理器设计。如果按照代次间变化程度的大小去评判,那么它的“新意”甚至可能比11代酷睿到12代酷睿的变化还要更大一些。

当然不能否认的是,无论是最大4P+4E的CPU布局、最高32GB的片上内存设计,还是其所采用的集成式WiFi新方案,这些都表明LunarLake注定会是一款更注重“低功耗”、主打超轻薄笔记本电脑、x86掌机等等设备的处理器设计。

官方已经明示,新架构同样会被用于桌面端新品

但这就会带来一个问题,那就是LunarLake很可能并不能完全覆盖现在MeteorLake的市场区间。因为后者毕竟有6P+8E+2LPE的高功耗版本被用在一些游戏本、甚至是工作站级别的产品中,而LunarLake就未必可以满足它们的配置需求。

不过英特尔方面在发布LunarLake的过程中也多次提及,这次的CPU、GPU采用的都是可扩展的模块化架构。比如其Skymont E核,未来在高性能处理器上就必然还会有8核、16核,甚至是更多核心数量的版本,Lion Cove P核在更注重纯粹性能的“纯大核”处理器上,也完全可以加入超线程功能。

所以这实际上也就意味着,LunarLake的意义并不仅仅是一代新的超轻薄AI笔记本电脑芯片方案,它的许多基础架构将来都会被继承到英特尔新的高性能桌面CPU、高性能游戏本CPU、独立显卡,甚至是服务器和工作站产品线上。反过来说,这也代表着LunarLake很可能会是英特尔全新的软件优化、指令集优化生态和驱动适配服务的一个“新起点”。所以它“战未来”的潜力,或许比我们现在想象的还要更大一些。

相关内容

热门资讯

百镜出道,C位依旧:WAIC顶... 来源:雷科技 如果说 WAIC 2025 是今年 AI 硬件的「集体高考」,那 Rokid Glas...
韩媒:韩国扶持五大联合体开发“... 综合韩联社、《朝鲜日报》和《京乡新闻》等韩媒报道,韩国政府4日正式选定NAVER Cloud、Ups...
录取通知书的“飞驰”之路 7月盛夏,安徽省近50万封承载着无数学子青春梦想与家庭期盼的高考录取通知书,正从四面八方“飞驰”向它...
凡知智造取得恒温核酸扩增分析仪... 金融界2025年8月6日消息,国家知识产权局信息显示,山东凡知智造医药科技有限公司取得一项名为“一种...
原创 离... [撒花] 随着科技的不断发展,“仿人形机器人”也变的越来越成熟了,AI的加持也让这些机器人变的更加智...
当AI化身“全能助手”,人类的... 正在屏幕前玩手机的你 有没有过这样的体验? 遇到不懂的问题 第一反应不是翻书思考 而是脱口而出“嘿 ...
珠海创信电子取得电路板用锡膏检... 金融界2025年8月6日消息,国家知识产权局信息显示,珠海创信电子有限公司取得一项名为“一种电路板用...
NBN Co转投亚马逊柯伊伯计... 来源:C114通信网 C114讯 北京时间8月6日晚间消息(蒋均牧)NBN Co与亚马逊达成协议,通...
石景山这家医院药品有了“电子身... “窗口不用一盒盒扫码吗?取药几乎不用排队,这速度真给力!”在北京大学首钢医院门诊药房,刚取到药的患者...
电力数据“会说话” 点亮智慧新... 本文转自【新华社】 新华社北京8月6日电 《经济参考报》8月6日刊发记者邓林如采写的文章《电力数据“...
国能新疆红沙泉二号矿实现纯电无... 近日,在国家能源集团新疆红沙泉二号露天煤矿(以下简称“红二矿”),58台无人驾驶矿卡正高效运转,其中...
普天科技:致力数据治理领域打造... 金融界8月6日消息,有投资者在互动平台向普天科技提问:公司相关产品或技术有哪些能为人工智能赋能?谢谢...
DeepMind发布Genie... 来源:至顶网 尽管目前还没有人找到通过生成式人工智能赚钱的可靠方法,但这并没有阻止Google D...
【喜讯】骨三科陈美玲在全国竞赛... 8月2日,在全国首届护理AI创新应用技能挑战赛决赛中,我院骨三科陈美玲的作品《创新聚力赋能发展——A...
微信内存一下就少了10G上热搜... 站长之家(ChinaZ.com)8月6日 消息:今日,微博热搜榜上#微信内存一下子就少了10G#的话...
我是宁波技能冠军④丨这些技能高... 前言 从工业设备控制(PLC)、工业机器人系统操作等“硬核”制造能力,到人工智能训练、网络安全等高科...
聚焦人工智能产业链 山东蓄力打... 中新网济南8月6日电 (记者 沙见龙)“这项体系如同人工智能产业的‘中央厨房’,能根据不同行业的差异...
2025未来科学大奖揭晓,他们... 科学之光照亮人类未来。6日,备受关注的2025未来科学大奖揭晓。这个夏天,“高冷”的基础研究再次变得...
为什么CA需要有《电子认证服务... 来源:SSL_SecureSocketLayer 1. CA是什么?—— 数字世界的「信任基石」 C...
2025 年 2 款华为会议记... 现在远程会议越来越多,不管是企业还是个人,都需要能快速整理会议记录的工具。我作为科技产品体验师,选了...