在全球算力需求不断攀升的当下,人工智能、大模型和高性能计算成为企业创新的关键驱动力。与此同时,能效比、成本控制和本地化支持,也逐渐被推到舞台中央。如何在性能、能效与可持续性之间取得平衡,正在成为云计算和芯片产业的一道必答题。正是在这样的背景下,亚马逊云科技持续加码自研芯片战略,推动“云原生芯片”理念落地。
如果把亚马逊云科技自研芯片的历程拉开来看,Amazon Graviton家族的发展几乎就是一部云原生算力的进化史。2018年,第一代基于Arm架构的A1实例上线,亚马逊云科技自此迈出了在CPU领域的第一步。随后从Graviton2开始,实例命名方式改为在类型后缀加上小写“g”,成为客户辨识的标志。此后几乎以两年一代的节奏,Graviton持续演进。2023年在re:Invent推出Graviton3,2024年全球可用,再到2025年9月10日,Graviton4正式在中国落地。短短七年间,Graviton已经走过了从探索到规模化普及的完整路径。
推动这一进程的核心动力,是客户需求。“客户对云的要求其实非常直接,他们希望性能越来越强,价格越来越低。这就是我们为什么要做‘云原生芯片’。” 亚马逊云科技大中华区产品总监张洋日前在接受笔者的采访时表示,所谓“云原生”,首先意味着规模经济——亚马逊云科技的数据中心有足够庞大的用户基础,支撑自研芯片的量产和成本摊薄。其次,在服务器场景中,应用类型远比个人终端要集中,主要集中在Web、容器、微服务、数据库以及AI相关任务。这为亚马逊云科技提供了定制化的空间,可以在芯片设计中去掉很多不必要的负担,从而让性能与能效比更好。
这种“以用促研”的循环,也推动了Graviton的快速迭代。例如,Graviton2发布后,亚马逊云科技的团队并没有预料到前端客户对HTTPS加解密性能的需求如此之高。结果,大量客户在使用中反馈,SSL加解密成了瓶颈。于是在三代产品中针对性优化,使加解密性能提升了两倍。“这就是典型的客户使用反哺研发的案例。”张洋进一步表示,随着晶体工艺从16纳米一路推进到5纳米,晶体管数量也从50亿增长到730亿,Graviton的性能逐步逼近甚至超越了主流x86产品。最新一代在性能上已较Intel Granite Rapids领先约20%。
“Graviton的优势不仅体现在实验室测试,更在真实业务中落地。”张洋透露,业界有句话叫“吃自己的狗粮”——既然是云原生芯片,就必须优先支撑自家核心服务。如今,从数据库、数据分析到容器等十几类托管服务,都已经原生构建在Graviton之上。客户如果担心应用迁移的复杂性,可以直接使用这些托管服务,在几乎无感知的情况下享受Graviton带来的性能和性价比提升。据了解,每一代Graviton的性能相比前代都提升30%到40%。
技术细节上,Graviton4体现出几大关键升级。核心数由64提升至96,增幅达50%;二级缓存从1MB翻倍到2MB,这是在功耗和成本之间取得最佳平衡后的选择;内存带宽提升75%,达到5200至5600MT/s,以满足核心数增加带来的“中央厨房”更快上菜需求;主频也从2.5GHz提升至2.8GHz,整体算力显著增强。
横向扩展能力同样是新一代的重要突破。Graviton4首次支持双路CPU,单个实例可达到192核心,已经接近甚至对标了Intel的最大实例规格。不同的是,Graviton4的双路设计并非简单堆叠,而是通过多插槽一致性架构和CCIX互联,实现系统级的一致性。在控制层面,亚马逊云科技的Nitro系统也进行升级,可以灵活管理双CPU实例,为客户提供更大的弹性。
在安全性上,亚马逊云科技延续了一贯的优先级思路。Graviton4实现了端到端加密,不仅芯片内部的数据处理受到保护,内存传输和主板信号通道也有加密机制,确保在多租户云环境下的数据安全。张洋强调:“安全永远是我们在芯片设计中最优先考虑的部分,尤其是在云上,这不仅是一个性能产品,更是一款要经得起客户信任的产品。”
在实际应用中,Graviton的设计理念体现得尤为清晰。与传统依赖基准测试不同,Graviton的优化源自对真实业务的观察。
“不同应用对CPU的敏感点存在明显差异。例如前端服务与后端数据库对缓存的依赖不同。常规Benchmark可能突出三级缓存优势,但在真实场景中,一级和二级缓存延迟的降低才直接提升性能。”张洋以MySQL为例补充道,Graviton4在二级缓存延迟上从0.4下降到0.1以下,这直接提升了数据库的处理效率。这种针对性优化,正验证了“working backwards”的价值。
R8g实例也体现了这种设计理念的延伸。“R”代表内存优化型,CPU与内存比例为1:8,更适合数据库和数据分析场景。与上一代R7g相比,R8g在性能上提升约30%,且中国区定价与R7g保持一致,体现了性价比优势。
另外,实际测试显示,无论是Java、Nginx、Redis,还是MySQL、Spark/Flink、MongoDB,Graviton4在多种场景下整体性能提升约30%,部分场景甚至接近翻倍。
如果说性能和价格的数据还带有技术色彩,那么亚马逊云科技内部的实践则更具说服力。自2021年起,亚马逊云科技就在大规模活动如Prime Day中部署Graviton实例。到2024年,使用的Graviton芯片数量已超过25万个,覆盖千万级别的实例与vCPU。今年的Prime Day中,超过40%的工作负载已经运行在Graviton上。
外部客户同样遍布全球。游戏行业的Epic Games在采用R8g后评价其为“测试过的最快的EC2实例”; IBM迁移至Graviton后,CPU占用率下降35%,成本降低18%;SAP在HANA Cloud上测试显示,分析型工作负载提升25%,事务型提升40%。在中国市场,涂鸦、Mobvoi等本土企业也已开始使用Graviton实例。
随着CPU性能提升,客户的实例选型趋势也发生变化:CPU与内存比例从原来的1:2逐步向1:4、1:8甚至1:16调整,部分客户通过降配获得更优性价比。
截至目前,亚马逊云科技排名前100的客户已全部使用Graviton;在前200和前1000客户中,使用率也分别达到95%。全球范围内,已有超过7万家客户选择Graviton作为云上算力的基础。
“客户升级决策主要受性能和性价比提升驱动。”张洋透露,客户在决策时,会权衡迁移带来的人力成本与潜在风险,只有当性能提升和成本节约明显超过这些代价时,迁移才有价值。如果实测性价比提升超过20%,且排期允许,客户便会选择升级。
值得注意的是,企业在日常运行中往往不会让系统满负荷运作,而是维持在50%到60%的利用率,以应对突发负载,因此在计算升级收益时,还会额外加上安全权重。这种考量也导致了“跳跃式”升级的现象:许多客户并未在Graviton2与Graviton3之间切换,而是直接从Graviton2升级至Graviton4,以获得更显著的性能和成本优势。
生态的成熟是推动客户落地的关键。亚马逊云科技的合作伙伴分为两类:系统集成商(SI)和内部服务团队提供改造和优化支持,采用outcome-based模式分享节省成本;ISV伙伴如TiDB、StarRocks、Docker、Elastic、Datadog、Databricks已完成Graviton适配,使客户应用内部大量工作负载能够高效运行在Graviton上,最终用户间接受益于成本和性能优势。
写在最后
从2018年到2025年,七年时间,Graviton完成了从探索到规模化的跨越。今天的Graviton4,不仅在性能和能效上站稳了与x86的竞争高地,也在全球范围积累了庞大的客户群和生态基础。
对于中国市场而言,Graviton4的落地意味着企业在算力选择上有了新的可能。它不仅是亚马逊云科技自研芯片的一次迭代,更是云计算基础设施演进的缩影。随着越来越多的应用迁移到云上,企业对性能、成本、安全的平衡需求将更加迫切,而这正是Graviton4能发挥价值的地方。
“亚马逊云科技在中国已经深耕12年,从2013年起通过与光环新网和西云数据合作实现落地。如今,从DeepSeek模型上架到亚马逊云科技Marketplace上,到最新的Graviton4实例,亚马逊云科技正持续将全球创新引入中国。”张洋始终强调,亚马逊云科技做Graviton的出发点始终是客户需求,未来也会继续坚持这一点。芯片演进的方向不是为了测试数据好看,而是为了客户在真实负载中真正受益。
下一篇:无人机合成孔径雷达系统技术