华为云亮相KubeCon EU 2024,以持续开源创新开启智能时代
创始人
2024-03-25 17:38:20
0

原标题:华为云亮相KubeCon EU 2024,以持续开源创新开启智能时代

3月21日,在巴黎举办的云原生顶级峰会KubeCon EU 2024上 ,华为云首席架构师顾炯炯在“Cloud Native x AI:以持续开源创新开启智能时代”的主题演讲中指出,云原生和AI技术的融合,是推动产业深刻变革的关键所在。华为云将持续进行开源创新,与开发者共启智能时代。

▲华为云首席架构师顾炯炯发表演讲

▶AI对于云原生范式提出关键挑战

在过去的几年里,云原生彻底改变了传统的IT系统,催化了互联网和政府服务等领域的数字飞跃。云原生范式带来的新的可能性,例如闪电般的快速销售和基于微服务治理的敏捷应用DevOps,已经深入人心。同时,人工智能的快速发展和广泛采用,包括大规模模型,已经成为行业智能的跳动心脏。

根据Epoch 2023年的调研数据,基础模型所需的计算能力每18个月就会增长10倍,是摩尔定理揭示的通用计算能力增长率的5倍。AI带来的新摩尔定律和大规模AI模型的主导地位对云原生范式提出了挑战,顾炯炯总结了其中关键的4点:

  • 首先,低GPU/NPU平均利用率导致AI训练和推理的高成本;
  • 其次,大模型训练集群频繁的失败率限制了训练效率;
  • 第三,大规模模型的复杂配置导致AI开发门槛高;
  • 第四,大规模的AI推理部署面临着不可预测的最终用户访问延迟和数据隐私问题的风险。

▶华为云AI创新为开发者迎接挑战提供思路

随着AI模型变得越来越大,对计算能力的需求也呈指数级增长。这种需求不仅给云原生技术带来了挑战,也为业界提供了创新机遇。顾炯炯分享了一些华为云在AI创新方面的故事,为开发者解决这些挑战提供了参考。

在云原生边缘计算平台KubeEdge的基础上,华为云实现了一个云原生多机器人调度管理平台。用户可以通过自然语言命令在云端输入任务指令,由系统协调边缘的多个机器人共同协作完成复杂任务。为了克服自然语言命令理解、大量机器人高效调度管理以及跨类型机器人访问管理的三个挑战,该系统采用了云端、边缘节点和机器人三个部分的架构,通过大模型执行自然语言命令,并进行流量预测、任务分配和路由规划。这一架构显著提高了机器人平台的灵活性,管理效率提升25%,系统部署周期缩短30%,新机器人的部署时间从月级缩短到天级

中国某顶级内容分享社区,每月活跃用户超过1亿。它的核心服务之一是主页上的推荐功能。推荐模型有近1000亿个参数。训练集群有数千个计算节点。一个训练作业需要数百个参数服务器和worker。因此,该社区对最优拓扑调度、高性能、高吞吐量有着强烈的需求。开源项目Volcano可以更好地支持在Kubernetes上运行的AI/ML工作负载,并提供了一系列作业管理和高级调度策略。Volcano项目引入了拓扑感知调度、装箱、SLA感知调度等算法,帮助社区将整体训练性能提升了20%,运维复杂度也大大降低

▶Serverless AI引领云原生发展趋势

如何高效、稳定地运行AI应用,同时降低运营成本,成为摆在众多企业和开发者面前的一大挑战。为此,华为云总结了云原生AI平台的关键要求,提出了一种全新的云原生AI平台理念——Serverless AI

顾炯炯提到,从开发者的视角来看,Serverless AI致力于智能地推荐并行策略,让复杂的训练和推理任务变得轻而易举。它提供自适应的GPU/NPU自动扩展功能,能够根据工作负载的实时变化动态调整资源分配,确保任务的高效执行。同时,Serverless AI还维护着一个无故障的GPU/NPU集群,让开发者无需担心硬件故障带来的中断风险。更值得一提的是,该平台保持与主流AI框架的兼容性,让开发者能够无缝集成现有的AI工具和模型。

对于云服务提供商而言,Serverless AI同样具有深远的意义。它不仅能够提高GPU/NPU的利用率,使训练、推理和开发混合工作负载得以高效运行,还能通过优化能效实现绿色计算,降低能耗成本。此外,Serverless AI平台还能实现跨多个租户的空间和时间GPU/NPU共享,提高资源的复用率。最重要的是,它为训练和推理任务提供了有保证的QoS和SLA,确保了服务质量和稳定性。

Serverless AI平台采用了构建在操作系统和虚拟化之上的灵活的资源调度层,将应用程序框架的关键功能封装于应用资源中介层中。顾炯炯现场展示了Serverless AI平台的参考架构。他认为,这种架构设计,使得Serverless AI平台具有了大规模AI资源自动驱动引擎的特点,包括精确了解应用资源利用模式的资源分析,实现异构硬件资源池化的资源共享,基于GPU/NPU虚拟化和负载热迁移的AI训练任务容错能力,以及提高资源利用率的多维度调度和自适应弹性伸缩等优点。

分论坛上,华为云技术专家提到,Kubernetes上运行AI/ML工作负载的使用量不断增加,许多公司在分布于数据中心和各种GPU类型的多个 Kubernetes 集群上构建云原生AI平台。使用Karmada和Volcano,可轻松实现多集群的GPU工作负载智能调度、集群故障转移支持,在保障集群内和跨集群的两级调度一致性和效率,并平衡系统整体资源的利用率和不同优先级工作负载的QoS,以应对大规模、异构的GPU环境管理中面临的挑战。

Karmada为多云和混合云场景中的多集群应用管理提供即时可用的自动化管理,越来越多的用户在生产环境中使用Karmada构建灵活高效的解决方案。Karmada已于2023年正式升级为CNCF孵化项目,期待与更多伙伴与开发者们共建繁荣社区。

针对AI分布式训练和大数据场景,Volcano Gang Scheduling解决了分布式训练任务中的无休止等待和死锁问题, 任务拓扑和IO感知的调度,将分布式训练的传输延迟降至最低,性能提升31%,minResources解决了高并发场景下Spark driver和executor之间的资源竞争问题,合理规划了并行度,性能提升39.9%

“云原生技术的敏捷性和异构AI计算平台的创新性,将是提升AI生产力的关键。” 顾炯炯谈到,未来,华为云将持续致力于开源创新,与业界同仁、伙伴共同开启智能时代的新篇章。

关注@华为云,了解更多资讯

相关内容

热门资讯

中国厂商期待苹果成为折叠屏“搅... 中新网深圳7月3日电(左雨晴) 中国厂商对折叠屏市场的新“搅局者”作出回应。 此前,有关苹果折叠屏设...
华为申请一种数据处理方法以及相... 金融界2025年7月4日消息,国家知识产权局信息显示,华为技术有限公司申请一项名为“一种数据处理方法...
原创 十... 手机摄影已迈入专业级时代,但手持拍摄的抖动、构图局限和运镜单一仍是痛点。一台优秀的手机云台,通过三轴...
延续宇宙级浪漫|超硬核的哈工大... 又是一年高考季, 你等待的 哈尔滨工业大学录取通知书 终于来了! 今年的录取通知书, 将延续宇宙级浪...
消息称微软自研 AI 芯片遇阻 DoNews7月3日消息,据外媒 The Information 报道,微软在自研 AI 芯片设计上...
数源科技取得充电桩整流模块抽取... 金融界2025年7月4日消息,国家知识产权局信息显示,数源科技股份有限公司取得一项名为“充电桩整流模...
估值1870亿元的小红书马上要... 金融界7月3日消息 小红书否认被阿里收购传闻。 3日,在社交媒体上流出小红书要被阿里收购的传闻,其“...
SpaceX 火箭爆炸致地面平... IT之家 7 月 4 日消息,SpaceX 在上月对旗下 Starship(星舰)36 号火箭进行静...
刚刚,Ilya Sutskev... (转自:机器之心) Meta 的挖掘机,终于挖到了 Ilya 大神的头上。 周五凌晨,OpenAI ...
巧用Cursor提示词,高效生... 在前端开发中,HTML页面的构建是最基础也是最关键的一环。随着AI辅助开发工具的不断进化,越来越多开...
万朗磁塑获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示万朗磁塑(603150)新获得一项实用新型专利授权,专利名为“...
已知第三个!外星系不明物体造访... 一个看似小行星的不明物体近来引起多国天文学家注意。欧洲航天局2日说,这个不明物体可能来自外星系,为目...
小董小懂丨“黄牛”为什么能抢走... 演唱会门票秒没?博物馆预约难如登天?别总怪自己手速慢,是有了科技加持的“黄牛”太多!模拟真人疯狂点击...
智慧粮仓来了 青岛西海岸新区大场镇的麦田里,联合收割机在收割小麦。新华社记者 李紫恒摄 夏粮开秤,小麦收购工作自南...
成都又“飞”出一家无人机IPO... 7月2日证监会网站显示,四川腾盾科创股份有限公司(简称“腾盾科创”)在四川证监会辅导备案,启动IPO...
Gemini负责人爆料!多模态... 一水 闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 一次性揭秘Gemini多模态技术! 就在...
消息称罗马仕已通知员工全面停工... IT之家 7 月 3 日消息,界面新闻今日发布消息称,受充电宝召回事件影响,罗马仕经营陷入困境。多名...
新闻纵深·追踪“人工智能+”丨... 日前,中车唐山公司生产的时速350公里CR400BF-Z型智能复兴号高速动车组在京沪高铁上运行。中车...
俄罗斯发射“进步MS-31”货... 视觉中国 图 俄罗斯国家航天集团3日宣布,俄罗斯当天从位于哈萨克斯坦境内的拜科努尔航天发射场发射“进...
逸霖自动化取得用于电机滑动的支... 金融界2025年7月2日消息,国家知识产权局信息显示,逸霖自动化科技(宁波)有限公司取得一项名为“一...