WEKA推出NeuralMesh架构支持超大规模AI工作负载
创始人
2025-06-19 21:02:13
0

WEKA宣布推出NeuralMesh并行文件系统软件转型方案,用于加速大规模 AI应用。

该方案基于这样的认识:传统存储架构无法满足新型分布式AI代理训练和推理环境在规模、延迟敏感性和并发性方面的需求。NeuralMesh由运行在动态连接节点网格中的微服务组成,连接数据、存储、计算和AI。它能够提供保证微秒级延迟的SLA,并随着规模扩展变得更具弹性,更多节点参与从故障节点重建广泛分布的数据条带。

WEKA表示:"当硬件故障时,系统能在几分钟内重建,而不是几小时。随着数据增长到EB级,性能会提升而不是下降。"

WEKA联合创始人兼CEO Liran Zvibel表示:"AI创新继续以惊人的速度发展。推理时代已经到来。我们过去依赖的数据解决方案和架构无法支持代理AI和推理工作负载所需的巨大性能密度和规模。在我们的客户群中,我们看到PB级客户环境正在以难以理解的速度增长到EB级。未来是超大规模的。"

NeuralMesh可在本地、数据中心和边缘站点、裸机或虚拟机上运行,也可在公有云和新型云(如Nebius等GPU服务器集群)中运行,具有统一命名空间。它可以从小规模开始,容量从TB增长到PB再到EB,在此过程中提升整体性能和弹性。

Zvibel告诉B&F:"我们从很早就开始容器化,但现在我们让它更加正式化。我们让外界更容易看到它。我们添加了更多容器和服务类型。此外,我们让部署更加灵活,我们的一些容器也在客户端运行。基本上我们提供端到端的完整解决方案,我们已经开始在当前实现中这样做。当我们在许多大型新型云中运行时,我们开发了Kubernetes操作器,你可以将我们的操作器与他们的Kubernetes集成,然后我们就作为他们基础设施的一部分运行。"

他谈到新型云时说:"很多新型云都使用我们的基础设施。所以他们的客户可能不知道这是WEKA,有些会公开说明。我们刚刚宣布了Nebius,但我们拥有的Nvidia NCP云可能比任何人都多。"NCP代表Nvidia云合作伙伴。

NeuralMesh在所有节点间分布数据和元数据,通过内置的自愈合、自扩展和快速重建功能动态平衡I/O。WEKA表示,一家基因组学研究机构从2PB扩展到12PB,无需停机或重新平衡,实现了一致的I/O延迟并消除了周末维护窗口。

该软件支持并发模型训练和推理,"消除了传统存储层的性能瓶颈"。它提供实时的PB级可观测性,覆盖所有数据路径,提供性能指标和基础设施健康状况的洞察,集成了仪表板、警报和遥测API。

它还支持TLC/QLC NVMe SSD和对象存储之间的分层,以及容器存储集成,加上传输中和静态加密、快照、快照到对象和基于角色的访问控制(RBAC)。

NeuralMesh支持NvidiaAMD和其他供应商的GPU和加速器硬件。Stability AI的HPC工程主管Chad Wood表示:"使用WEKA,我们现在在AI模型训练期间实现了93%的GPU利用率,并以80%的先前成本将云存储容量增加了1.5倍。"

网格架构详情

在回答关于网格节点构成的问题时,WEKA解释道:NeuralMesh的网格架构有两个部分——微服务和节点。这两个概念协同工作,提供本质上是软件定义结构的网格,以模块化和可组合的方式互连数据、计算和AI服务。

系统中的每个节点运行一个或通常多个微服务,每个微服务处理特定的功能集,如数据访问、元数据、审计、协议通信或可观测性。这些服务通过定义明确的API相互通信,实现整个基础设施的动态编排。

与绑定到刚性硬件架构的传统存储系统不同,NeuralMesh的完全容器化、面向服务的设计允许每个功能独立扩展。这提供了:弹性扩展到EB级及以上而不损失性能;适合安全多租户环境的细粒度资源隔离;跨裸机、云和混合部署的云原生灵活性。

关于扩展性能提升,WEKA提供了具体数据:NeuralMesh随着扩展变得更强大和有弹性,因为数据以小块形式跨所有故障域进行条带化,所以丢失一个节点只影响每个条带的微小部分。集群越大,条带分布越广,故障暴露度越小。例如:对于条带大小18(16+2)和集群大小20,可能的条带组合数量是190,增加一个服务器使集群大小达到21,可能的组合数量增加到1330。当集群大小增长到25时,可能的条带组合数量现在是480,700。

此外,每个可用的计算核心都参与重建的纠删码计算,即使它不拥有数据。例如,在50节点集群中1个节点故障,其他49个节点的核心参与恢复。在100节点集群中,99个节点的核心提供帮助——有效地将重建速度提高一倍。

NeuralMesh是获得WEKA软件的新方式。WARRP(WEKA AI RAG参考平台)包含在NeuralMesh中,增强内存网格(AMG)也是如此。关于这一点,Zvibel告诉我们:"当我们运行这些工作负载并在后端网络上连接WEKA时,我们实际上可以访问8个NIC用于AUG。总共是128个PCIe通道。这实际上比CPU拥有的PCIe通道还要多。"

NeuralMesh软件目前以有限发布形式提供给企业和大规模AI部署,正式发布计划在2025年秋季。

相关内容

热门资讯

旭辉恒远取得散装大袋生产用裁剪... 金融界2025年6月19日消息,国家知识产权局信息显示,天津市旭辉恒远塑料包装股份有限公司取得一项名...
Labubu 3.0首次开启线... 2025年6月18日晚,泡泡玛特旗下顶流IP Labubu第三代产品“前方高能”系列首次开启全球线上...
拍摄档期排到年底,影视剧组缘何... 从阳光明媚、微风习习的白天,到月光皎洁、烟花绽放的夜晚,需要多长时间?在重庆永川科技片场,答案是1秒...
中国电信联合华为发布“智聚大上... 近日,在2025 MWC 上海期间,中国电信联合华为举办5G-A“智聚大上行”创新发布会。会上,中国...
特斯拉下一代FSD芯片量产,算... 2025-06-19 07:41:02 作者:狼叫兽 特斯拉下一代FSD(完全自动驾驶)芯片现已...
飞利浦、未野、小米迷你mini... 迷你剃须刀占尽了小机身的市场红利,如今已发展为剃须界的巨头。可是小机身也蕴藏大烦恼,迷你剃须刀结构限...
微软宣布进入逻辑量子比特时代 微软宣布结束噪声易错量子机器时代,将其庞大资源投入构建容错 量子计算机,旨在与 人工智能和经典高性能...
64款违规收集个人信息APP被... 6月18日,国家网络安全通报中心发布消息称,经国家计算机病毒应急处理中心检测,发现64款移动应用存在...
美国大企业又掀裁员潮!这次与人... 受特朗普政府贸易政策引发的全球经济不确定性影响,企业成本削减压力持续加剧。微软、宝洁、沃尔玛、亚马逊...
新民侨梁 | 英国将斥资1.8... 英国政府近日表示,作为政府1.87亿英镑“TechFirst”(科技优先)计划的一部分,100万名学...
可视化模型为地震预警开辟新路径 新华社北京6月18日电 美国研究人员近日在美国《国家科学院学报》上发表论文称,通过构建可视化的地震模...
我国宽温域锂离子电池研究获新突... 中国科学院青海盐湖研究所溶液化学课题组在宽温域镁基锂离子电池研究领域近日取得新进展。该科研成果近日发...
荣耀与中国移动宣布AI终端战略... 【2025年6月19日】荣耀与中国移动在上海联合举办“中国移动&荣耀AI终端战略合作发布会”。此次合...
WEKA推出NeuralMes... WEKA宣布推出NeuralMesh并行文件系统软件转型方案,用于加速大规模 AI应用。 该方案基...
25名中学生火箭爱好者在青海成... 6月18日15时39分,来自广东的25名中学生火箭爱好者,在青海省海西州茫崖市冷湖火箭发射基地成功发...
原创 卡... 走进卡游极智工厂,德国留学生眼中的制造业图景令人眼前一亮 —— 当技术的齿轮开始转动,传统与创新竟能...
原创 在... “我们正处在一个充满不确定性的时代,但确定的是AI的发展正在加速”,2025年6月19日,当亚马逊云...
GB/T 31125-2014... 药典环形初粘性能测试仪GB/T 31125-2014 药典环形初粘性能测试仪:精准量化粘附性能的关键...
直击2025世界移动通信大会(... 《科创板日报》6月18日讯(记者 黄心怡)今日,世界移动通信大会(MWC)上海启幕。 《科创板日报》...
哈尔滨移动无人机巡检助力特殊场... “无人机已准备就绪,起飞!”哈尔滨移动网络部的工作人员正在对哈尔滨市香坊劳动公园站点的铁塔进行日常巡...