原创 如何为混合AI打好算力地基?联想集团已率先交卷
创始人
2024-05-24 00:18:38
0

作者 | 程茜

编辑 | 漠影

如今,个人大模型和企业大模型以及在其基础上发展出的个人智能体和企业智能体,将与公有大模型共存互补,以混合AI形态加速落地。

在此背景下,大模型的形态更加多元、数量增长愈发使得“算力为王”成为当下AI时代的主题,让“如何用好算力”这件事也被注入了更多新的期待。但这并不意味着“得算力者得天下”,企业更需关注的是如何驾驭海量算力,充分让算力成为支撑个人智能体和企业智能体在各种行业中应用的养料。

算力的高效利用迫在眉睫。其中,医疗领域在进行大规模数据处理、分析,需要考虑避免算力资源的浪费节省成本;从数字人助教到课程大模型等丰富应用在教育行业出现,需要让算力足够支撑这些多元应用……

同时,由于当下生成式AI的应用场景丰富,涉及的算法框架多样且需要面临不同的GPU选配、硬件搭配等,这些中间环节都为算力使用者提出了不小的挑战。未来,算力的利用率将持续攀升,产业焦点正从拼卡、拼硬件堆叠过渡到拼软件。相比于硬件堆叠,软件调度在可获得性、灵活性、可靠性等方面的优势,成为企业解决当前算力利用率提升困境行之有效的一大解决方案

联想集团提出的AI for ALL战略,在这场混合式人工智能的竞赛中占得先机。在Q4财报发布之际,联想集团再次发布一支硬核科普视频,视频通过UE5搭建了科幻感十足的场景,模拟《沙丘》般的混合算力基建,并辅以AI生成内容等手段,对抽象技术进行了3D立体呈现。

针对企业合理分配调用现有算力的迫切需求,通过拆解算力在企业AI训练感知、调度、加速、应用的全链路流转,看到联想集团在层层交织的巨大算力网络中,如何以混合算力基础设施软件为企业抽丝剥茧,将星罗棋布的混合算力单元探索、挖掘、输送到企业的不同业务需求中。

一、 混合式AI加速落地,企业用好算力面临三大拦路虎

如今,软件已成为加速计算的根本必要条件,简单的硬件叠加部署算力已经难以追赶混合AI步伐,各行各业必须意识到从硬件堆叠向软件基础设施转变才是大势所趋

因此,在企业现有的多元化混合算力基础设施上,亟需更优的混合算力基础设施软件释放全部混合算力资源,这在当下几乎已经成为企业大模型与业务相结合的必要条件。

但是,充分调度现有的混合算力面临三大难点。

首先是多元化应用场景与算力匹配的难题。为了满足AI愈加多元化的应用场景,企业构建的计算集群往往有上百种,不同组合的服务器、存储、网络需要不同的调度方式,同时AI领域目前至少有5种以上的算法框架和10种以上算子库,企业的适配难度极高。

第二点在于,集群的故障断点次数多,恢复成本极高。根据统计,目前业界顶尖的千卡集群,每月至少有15次断点故障。每月额外费用超过百万元,常规的断点续训技术上,每次故障恢复时间达到2个小时,使得训练效率大幅降低。

并且现在规模更大的万卡集群出现,其面临的故障中断次数及恢复时间也呈指数级增长。

第三点则在算力利用率方面,出乎意料的是,AI模型算力利用率MFU(Model FLOPs Utilization)普遍在30%左右,几乎有超过一半的算力被浪费,大量算力仍处于闲置状态,在算力供需不平衡的当下,提高算力利用率至关重要。

这些难题无疑给算力使用者、AI基础设施提供者带来了不小的挑战。但挑战背后正是历史机遇,联想集团作为算力基础设施提供者在技术积累、产品创新、应对挑战上齐头并进,为算力使用者带来了更佳的创新解决方案。正如联想集团董事长兼CEO杨元庆在联想创新科技大会Tech World上所说:“人工智能变革不是一场集成商的角逐,而是一场创新者的赛跑。”

二、拆解混合算力基础设施软件,全流程为企业释放算力资源

数据中心往往由三种集群构成,包括服务于AI的集群、通用计算集群、高性能计算集群,它们共同为企业的计算需求效力。但因调度器不同,这三种集群存在调度壁垒——使得企业的AI需求无法调度全部GPU资源,部分昂贵的GPU资源闲置,这在AI需求紧迫的当下已经成为企业一大桎梏。

4月18日,联想集团在2024 Tech World上最新发布了联想万全异构智算平台HIMP(Lenovo wanquan Heterogeneous Intelligence Management Platform)。面对企业算力应用困境,它能够极致压榨企业混合算力资源,让算力充分为企业AI训练所用。

视频中颇具视觉冲击力的“四棱锥”,便是联想的混合算力基础设施软件HIMP,在企业AI训练的感知、调度、加速、应用全链路过程中助力各行各业释放全部的算力。

首先要感知和调度算力,这是其合理分配算力资源的关键,也构成算力使用的基础。

针对不同计算集群间调度存在壁垒,无法将全部GPU资源为AI需求所用这一痛点,联想HIMP的一大独创性就是能跨越集群间不同网络定位拥有最优训练速度GPU的拓扑感知机制。视频中在三维空间中不断变化的网络拓扑动画,打破了不同集群间的调度壁垒,成为算力网络中的重要一环。拓扑感知机制可以使千卡集群的网络通信效率提升10%-15%。

同时,联想集团打造的超级调度器,可以一举盘活AI集群、通用计算集群、高性能计算集群。通过一个面板,能够清晰看到联想HIMP可以实时感知、监测和收集算力数据以及不同业务的算力需求,通过分析相应数据进行算力的合理分配与调度,将所有GPU资源为AI所用。

合理分配之后的下一步就是如何让算力加速。

往往在企业AI训练过程中,几乎有一半的响应时间会在网络中被消耗,网络通信速度慢直接影响算力的使用效率。

联想集团以近似于“蚁群觅食行为”的集群调度算法,为AI计算提速。视频通过蚁群算法的仿生学比喻超级调度器,生动再现蚁群在复杂的环境中,驾轻就熟地找到最佳路径,减少网络中消耗的时间。

同时,为了验证大模型训练的效果,其中会夹杂部分推理任务。正如视频中从训练任务中分离而出的红色小方块,其所需的算力资源小,不需要占满整颗GPU。以往用户会在操作系统层进行GPU虚拟化的算力分配,这过程中,会产生大概20%的算力损耗。

因此,为了提升算力的使用效率,联想HIMP的另一大独创性就是GPU驱动层的内核态虚拟化技术,视频使用三维动画展示了GPU在驱动层的虚拟切割,代表推理任务的红色方块在其中极速飞梭,使GPU成为一个算力蜂巢。推理任务之间能实现任务隔离,单独任务分开计算。算力在虚拟化过程中损耗可以降到5%以下,在极致情况可以降到1%以下,几十张卡实现“千卡集群”,驱动企业的混合算力应用率提升。

最后就是应用层面,这也是算力被可持续利用起来,保证成功率的关键。

AI训练中任一节点故障都会导致整个集群停摆。联想集团创新性提出以模型之力拯救模型,通过对大量AI训练故障进行特征采样,构建了可以预测AI训练故障的模型

如视频中呈现的蓝色粒子向集群输送任务时,遇到故障就会迅速在旁路蓝色粒子中备份,使断点续训的恢复时间从几小时减少到一分钟,大幅提升了企业的训练效率。

联想集团的异构智算平台HIMP打通了全部的算力网络,这一全流程AI训练框架落成,使得AI模型算力利用率MFU(Model FLOPs Utilization)大幅提升。在混合AI落地的需求背景下,联想集团的混合算力基础设施软件调度加持,助力企业释放全部混合算力。

联想HIMP也成为AI 2.0时代联想集团AI基础设施战略框架的核心,大模型训练和推理的基础设施底座。

结语:极致压榨算力潜能,直面算力指数级增长

生成式AI浪潮席卷千行百业,正如这支可视化财报科普解读视频所提到的:“AI所带来的新工业革命,本身就是人类对算力这一资源的挖掘和应用”。在算力资源稀缺的背景下,作为AI基础设施的行业领军者之一,联想集团正循序渐进去极致压榨算力资源推动AI基础设施释放最大动能,让企业充分利用好海量算力,与搭载个人大模型的AI PC一起助力混合AI时代加速到来。

过去20多年,PC互联网和移动互联网引领了互联网产业革命,并带动了相应的基础设施产业繁荣,如今AI有望应用于千行百业,放眼未来10年,对于AI技术的强大需求将催生一个指数级增长的算力市场,基础设施巨头联想集团正立于潮头,成为守在风口的先行者。

相关内容

热门资讯

芒果TV三会员在手投屏无门,用... 来源:GPLPCN 近日,有用户爆料称,自己同时持有芒果TV平台的普通会员、全屏会员及SVIP三项...
又一家机器人公司,冲刺A股IP... 又一家机器人企业,向科创板发起冲刺。 7月30日晚,四川天链机器人股份有限公司(下称“川机器人”)...
美好时代取得锂电池隔膜收卷机专... 金融界2025年7月30日消息,国家知识产权局信息显示,湖南美好时代新材料科技有限公司取得一项名为“...
海斯比船舶申请用于船舶的多功能... 金融界2025年7月30日消息,国家知识产权局信息显示,珠海市海斯比船舶工程有限公司申请一项名为“一...
雷赛智能取得一种伺服驱动器专利... 金融界2025年7月30日消息,国家知识产权局信息显示,深圳市雷赛智能控制股份有限公司取得一项名为“...
空地一体智慧交通解决方案龙岗上... 项目启动现场 7月30日,“空中高德 龙岗启航——深圳市龙岗区空中高德时空底座发布会”正式举行,龙岗...
天玛智控申请一种三位四通换向阀... 金融界2025年7月30日消息,国家知识产权局信息显示,北京天玛智控科技股份有限公司;北京煤科天玛自...
讲真学堂:助力零基础小白掌握手... 在数字化时代,短视频已成为人们记录生活、分享点滴的重要方式。然而,对于许多没有任何拍摄经验的零基础小...
邦彦技术发布数字人平台Nuwa... 中证报中证网讯(王珞)日前,2025世界人工智能大会(WAIC)在上海召开。邦彦技术股份有限公司(6...
华为Mate 80新曝大全:e... 在 7 月 24 日的推文中,IT之家向各位盘点了华为 Mate 80 系列曝光的“花活儿”。 结合...
人工智能酝酿下一个爆款 7月的最后一个周末,2025世界人工智能大会(WAIC)吸引了800多家企业参加,宇树人形机器人跳舞...
泊头市盈康取得建筑板材生产用码... 金融界2025年7月30日消息,国家知识产权局信息显示,泊头市盈康彩钢配件有限公司取得一项名为“一种...
江苏宝安电缆取得大截面高压电缆... 金融界2025年7月30日消息,国家知识产权局信息显示,江苏宝安电缆股份有限公司取得一项名为“一种大...
宇信科技:公司成功开发了多款A... 证券日报网讯 宇信科技7月30日在互动平台回答投资者提问时表示,作为中国金融科技服务领军企业之一,公...
成果转化看绵阳 | 专场路演赋... 成果转化看绵阳 专场路演赋能科技成果高效转化 近日 绵阳科技城新区专场项目路演活动举行 多个优质中...
LG开启家电预售摸底日本 12... 重返日本家电市场的LG电子,以预售家电的模式在摸底日本市场。用户的消费偏好还有多大概率会向电子倾斜?...
筑牢防线,奉贤这家企业全力迎战... 面对台风“竹节草”逼近的严峻考验,中建二局华东公司奉贤文体中心项目紧急部署,项目部近百名人员安全转移...
广东九潮建设取得水管铺设用裁剪... 金融界2025年7月30日消息,国家知识产权局信息显示,广东九潮建设有限公司取得一项名为“一种水管铺...
steamf12截图没反应?S... Steam是由Valve公司开发的一款电子游戏分发平台,自2003年发布以来,它已经成为全球最大的数...
科技新空间落地城市文化地标:东... 7月30日,东郊记忆华为授权体验店在成都传媒集团东郊记忆国际时尚产业园区正式启幕开业。随着门店的正式...