王咸宁:AI大模型算力建设的内容
创始人
2025-03-19 01:02:16
0

“人工智能+”时代, 作为AI人工智能三大要素之一的“算力”成为各行业信息基础设施的重要部分。配置算力基础设施,为Gemma、LLaMA、DeepSeek等大模型的内部部署、模型训练和推理等AI应用和研究,提供一个高速、稳定、安全的AI环境,是当前各行业信息部门面临的任务。

一.算力基础设施类型

AI算力基础设施可以分为AI训练、AI推理、AI嵌入和AI桌面设施4类,如图1所示。

图1 AI算力设施类别

AI训练设施主要用于需要高算力的大模型部署(例如DeepSeek全量模型)、模型研发和训练以及大模型微调。AI推理设施用于中小规模模型部署(例如DeepSeek蒸馏模型)、模型的推理(即训练好的模型的应用),也可以用于模型的研发。AI推理设施要考虑支撑大量AI业务应用(例如临床辅助诊断、影像辅助诊断等),这些业务应用数量较多,但算力要求不高,为了充分利用算力资源而需要采用算力卡虚拟化或多实例技术,实现算力按需配置。AI嵌入设施主要用于嵌入式边缘计算场景,进行嵌入模型的训练和推理。AI桌面设施是指在现有桌面电脑上扩展AI算力,随着AI的广泛应用,个人设备将具备日益强大的AI功能,这就要求桌面计算机能提供充足的AI算力。

二.算力基础设施

1.AI服务器

AI服务器主要是为人工智能的机器学习提供计算能力支持。AI服务器的配置需要根据用户应用需求,选择合适的CPU、内存、硬盘(SSD或机械硬盘),以及提供AI算力的算力卡、算力卡内存。如果算力卡不支持显示器接口,还需要配置显卡。服务器的机箱尺寸、各类接口和卡槽,需要根据算力卡的尺寸、接口类型和张数设置。算力卡耗电较高,服务器电源功率必须充分满足算力卡的功耗与散热要求。除了硬件,AI服务器还需要安装操作系统以及AI架构件和工具包软件等。

2.AI算力卡

AI算力卡是算力服务器的核心部件, 能够处理大规模数据集和复杂的数学运算,适用于机器学习、深度学习、自然语言处理、计算机视觉等领域的应用,通过高性能计算设备,AI算力卡可以加速神经网络的训练过程,提高模型精度。

常用的AI算力卡有英伟达、英特尔、AMD等的图形处理单元(GPU),谷歌的张量处理单元(TPU),以及华为的神经网络处理单元(NPU)等。算力卡的主要性能指标包括计算精度、内核类型和内存容量,下面分别介绍。

1)主要性能指标

(1)计算精度与速度

常用的算力卡计算精度如表1所示。除了表中所列的精度指标,不同的算力卡厂家还会有其他的精度指标。

表1 算力卡计算精度

表2 算力卡的计算速度类型和单位。

算力卡的计算精度和运算速度的选择,需要按照算力卡的应用场景来确定。

(2)内核

算力卡芯片的内核用于数据计算,其核数量远远大于CPU,甚至高达上万个。英伟达GPU内核主要有CUDA核和‌Tensor核两类。

CUDA核主要用于执行加法、乘法运算通用计算任务:1)执行并行计算任务;2)支持大规模的浮点运算和整数运算,适用于图像和视频处理、科学计算以及实时物理计算等;3)多线程并行执行,能够一次性运行数千甚至数百万个线程(一个CUDA核可以并行处理多个线程)。‌

‌Tensor Core为加速深度学习中的张量运算设计:1)优化了矩阵乘法和累加运算,这些运算是深度学习的核心计算任务;2)在深度学习推理和训练方面表现出色,能够大幅提高计算性能,同时维持较低的精度损失。

‌(3)内存

算力卡的内存(常称为“显存”)是指算力卡专用的存储芯片,用于存储算力卡需要快速读写的数据信息,如模型参数、数据缓存等。显存的容量通常以GB(2³⁰)为单位,容量越大,算力卡能处理的数据规模就越大。

算力卡内存的容量需要根据模型的使用情况考虑,对于深度学习神经网络模型,算力卡内存容量可以按下列公式估算:

算力卡内存容量 =(1.2-1.4) X (训练模型参数量 X 计算精度的字节(Byte)数)系数(1.2-1.4)是在模型参数所需要内存的基础上,增加的额外开销,如数据缓存等。模型训练系数可选1.4,模型推理可选1.2。例如,用于推理的模型参数是70B(70X10⁹),计算精度FP16(2Byte),算力卡内存容量 = 1.2 X70X109 X2,结果是168,内存容量约为168GB。在配置算力卡内存时,还需要考虑模型用户并发数。在确定内存容量前,用户应向模型研发人员了解内存的实际需求。

采用量化技术,将模型参数的精度从浮点数降低到低位表示(如表1中INT8、INT4),可以显著降低内存和计算需求,使模型在资源有限的设备上更高效地部署。因为降低精度可能会影响输出的准确性,需要仔细管理以保持模型的性能。

显存的另一个指标是带宽,显存带宽决定了GPU从显存中读取或写入数据的速度。显存带宽越高,数据传输越快,算力卡的处理效率也越高。

(4)功耗

功耗是算力卡的重要指标,在算力卡规格书中通常以TDP(热设计功耗)、典型功耗或最大功耗等表示。算力卡的功耗和散热是AI服务器需要考虑的重要问题,在服务器的选型时需要充分考虑,并不是所有服务器都考虑了GPU的使用,特别是GPU模组的使用场景。

2)英伟达GPU

英伟达的图形处理单元GPU(Graphic Processing Unit)是目前应用最广泛的AI算力卡,早期的GPU主要用于计算机的显卡,为图形和视频渲染与处理提供计算能力。由于GPU具有的强大并行计算能力,在AI时代被广泛用于AI算力,为AI模型训练和推理提供高速数据计算支持。部分新一代的数据中心级GPU已经不再提供显卡接口,而是专用于人工智能深度学习。

表3是英伟达GPU卡的分类。对标AI算力基础设施分类,数据中心级GPU适用于AI训练设施和AI推理设施,专业级适用于AI推理设施,消费级适用于AI桌面设施。AI嵌入设施可采用英伟达的边缘计算专用设备(如Jetson系列)。

表3 GPU的类型

表4部分GPU的性能指标。

表4为GPU的性能指标 (表内参数值仅供参考,以英伟达官方公布为准)

表5 GPU的其他主要指标

表5列出GPU的其他主要指标。表5所列的指标并不是每种型号GPU都具备的,需要时应查询英伟达官网资料。

GPU的选型主要是依据AI模型算法的基础框架(如英伟达GPU的CUDA)、AI算力服务器的用途(训练、推理或微调等)、模型算法类型(机器学习或深度学习)与精度、应用场景以及货源情况等因素综合考虑。对于企业级的AI中心服务器,可以采用数据中心级GPU,保证有一定扩展空间。此外,还要注意即使是相同品牌的GPU,但型号不同,甚至内存容量不同,通常都不能直接合并使用(例如,将几张同型号但显存容量不同的GPU显存相加),需要通过数据并行或模型并行的方法解决。遇到这方面的问题,建议先咨询GPU供应方。

3)算力卡的开发环境

算力卡的开发环境通常指的是用于运行和开发人工智能应用程序的计算资源和软件配置。算力卡大厂都有与自家算力卡配套的开发环境,包括英伟达GPU的CUDA架构,华为NPU的CANN架构和AMD GPU的ROCm代码平台等。英伟达GPU的开发环境主要围绕其专有的CUDA(Compute Unified Device Architecture)平台构建。图2(左图)描述了英伟达GPU的开发环境。

CUDA提供了一个并行计算平台和编程模型,开发者可以使用英伟达GPU的处理能力来加速计算密集型应用。英伟达的CUDA平台与GPU深度绑定,对于使用CUDA平台开发的应用程序(算法模型),若使用其他GPU,需通过适配层将CUDA代码转换为兼容目标GPU的指令,如图2(右图)所示。

图2 (左图)英伟达GPU的开发环境,(右图)非英伟达GPU通过适配层兼容CUDA开发环境。

三.小结

今年以来, 以DeepSeek为代表的大模型以其技术优势和成本效益,在各行业和场景中得到广泛应用。基于内部数据安全的考虑,许多机构在应用大模型时,采用了内部部署方式。如何建设和配置AI算力设施,成为技术工程师关心的问题。本文对AI算力核心的算力卡相关内容做了介绍,希望对大家有所帮助。

作者简介:王咸宁(Xianning Wang),就读于密歇根州立大学(MSU)工程学院。开源IT技术探索者,致力于AI技术在应用领域的研究。

相关内容

热门资讯

硅谷60万亿终极野心!AI取代... 新智元报道 编辑:犀牛 【新智元导读】 硅谷终极野心:AI+机器人吞噬全球六十万亿美元工资;马斯克...
多款华为折叠屏手机,降价! 机构数据显示,2025年一季度,中国折叠屏手机出货量达到284万部,同比增长53.1%,市场表现有所...
开拓同位素产业新局 让核技术成... 5月16日,历经一年多的分离、提纯,全球首批利用商用堆生产的碳-14产品正式投放市场。同一天,“和福...
原创 三... 当谈到高端手机时,许多人第一反应是苹果或华为。可偏偏有那么一群人,甘愿多掏几千元,选择三星,也许他们...
杭州泉达取得具备止回功能的水利... 金融界2025年5月19日消息,国家知识产权局信息显示,杭州泉达建设有限公司取得一项名为“一种具备止...
只针对目标突触,不影响其他细胞... 原标题:只针对目标突触,不影响其他细胞分子工具能精准“开关”大脑回路 美国南加州大学研究团队开发出两...
全球首家“人工智能建筑设计与城... 南都讯 记者黄璐 通讯员廖晞媛 2025年5月17日 ,中国工程院院士、深总院首席总建筑师孟建民在中...
天问二号探测器转入发射区 计划... 中新社北京5月18日电 (记者 马帅莎)记者从中国国家航天局获悉,5月18日,中国行星探测工程天问二...
中国电信陕西公司率先商用“5G... 5月17日上午,中国电信陕西公司在西咸国际会议中心举行“聚智向新 开拓共赢——陕西电信5G-A正式商...
聚焦创新发展!2025年太原市... 各县(市、区)科技管理部门、党委宣传部、科协,市直有关单位,中北高新区管委会,各有关单位: 为深入学...
原创 三... 一年一度618大促活动正如火如荼地进行着。手机行业又开始热闹起来了。各大手机品牌纷纷开启了新一轮的“...
江苏本格取得定子的上料装置专利... 金融界 2025 年 5 月 17 日消息,国家知识产权局信息显示,江苏本格自动化科技有限公司取得一...
5G-A来了,如何影响你我(锐... 近日,位于江西省瑞金市经济技术开发区的5G数字产业园内,智能自动导引车在车间里来回穿行运送生产物料。...
全息纱幕还原古乐、VR体验卧薪... (央视财经《天下财经》)当下,“文博热”持续升温,当古韵与科技交织,历史与潮流碰撞,古老的文物“走”...
新疆夜空不明飞行物是什么?揭秘... 5月19日 星期一 农历四月二十二 新疆夜空不明飞行物是什么?揭秘来了。5月16日晚,新疆多地拍摄到...
算力基础设施建设持续提速 将给... 记者从5月17日在江西南昌举行的2025世界电信和信息社会日纪念活动上了解到,我国将推动算力互联网试...
中国电信山东公司举办“云改数转... 五月泉城,万物竞发。2025年5月17日,值此第57个世界电信日来临之际,作为山东数字强省建设的主力...
网速飞起!广州这三个小区成万兆... 5月17日,“万兆新生活,AI家更美好——2025世界电信日·广州移动万兆宽带网络服务发布会”在广州...
抗生素耐药性问题有望解决 据新华社巴黎电 法国国家科学研究中心日前宣布,该机构参与的科研团队成功识别出一种新分子NM102,能...
哈洽IN现场|哈洽会现“阳光搬... 世界因科技的绚丽而多彩,生活因科技的融入而更加丰富多彩。第34届哈洽会哈尔滨展区人头攒动,一款能让阳...