WEKA推出NeuralMesh架构支持超大规模AI工作负载_资讯

WEKA推出NeuralMesh架构支持超大规模AI工作负载

创始人

2025-06-19 21:02:13

0次

WEKA宣布推出NeuralMesh并行文件系统软件转型方案，用于加速大规模 AI应用。

该方案基于这样的认识：传统存储架构无法满足新型分布式AI代理训练和推理环境在规模、延迟敏感性和并发性方面的需求。NeuralMesh由运行在动态连接节点网格中的微服务组成，连接数据、存储、计算和AI。它能够提供保证微秒级延迟的SLA，并随着规模扩展变得更具弹性，更多节点参与从故障节点重建广泛分布的数据条带。

WEKA表示："当硬件故障时，系统能在几分钟内重建，而不是几小时。随着数据增长到EB级，性能会提升而不是下降。"

WEKA联合创始人兼CEO Liran Zvibel表示："AI创新继续以惊人的速度发展。推理时代已经到来。我们过去依赖的数据解决方案和架构无法支持代理AI和推理工作负载所需的巨大性能密度和规模。在我们的客户群中，我们看到PB级客户环境正在以难以理解的速度增长到EB级。未来是超大规模的。"

NeuralMesh可在本地、数据中心和边缘站点、裸机或虚拟机上运行，也可在公有云和新型云（如Nebius等GPU服务器集群）中运行，具有统一命名空间。它可以从小规模开始，容量从TB增长到PB再到EB，在此过程中提升整体性能和弹性。

Zvibel告诉B&F："我们从很早就开始容器化，但现在我们让它更加正式化。我们让外界更容易看到它。我们添加了更多容器和服务类型。此外，我们让部署更加灵活，我们的一些容器也在客户端运行。基本上我们提供端到端的完整解决方案，我们已经开始在当前实现中这样做。当我们在许多大型新型云中运行时，我们开发了Kubernetes操作器，你可以将我们的操作器与他们的Kubernetes集成，然后我们就作为他们基础设施的一部分运行。"

他谈到新型云时说："很多新型云都使用我们的基础设施。所以他们的客户可能不知道这是WEKA，有些会公开说明。我们刚刚宣布了Nebius，但我们拥有的Nvidia NCP云可能比任何人都多。"NCP代表Nvidia云合作伙伴。

NeuralMesh在所有节点间分布数据和元数据，通过内置的自愈合、自扩展和快速重建功能动态平衡I/O。WEKA表示，一家基因组学研究机构从2PB扩展到12PB，无需停机或重新平衡，实现了一致的I/O延迟并消除了周末维护窗口。

该软件支持并发模型训练和推理，"消除了传统存储层的性能瓶颈"。它提供实时的PB级可观测性，覆盖所有数据路径，提供性能指标和基础设施健康状况的洞察，集成了仪表板、警报和遥测API。

它还支持TLC/QLC NVMe SSD和对象存储之间的分层，以及容器存储集成，加上传输中和静态加密、快照、快照到对象和基于角色的访问控制(RBAC)。

NeuralMesh支持Nvidia、AMD和其他供应商的GPU和加速器硬件。Stability AI的HPC工程主管Chad Wood表示："使用WEKA，我们现在在AI模型训练期间实现了93%的GPU利用率，并以80%的先前成本将云存储容量增加了1.5倍。"

网格架构详情

在回答关于网格节点构成的问题时，WEKA解释道：NeuralMesh的网格架构有两个部分——微服务和节点。这两个概念协同工作，提供本质上是软件定义结构的网格，以模块化和可组合的方式互连数据、计算和AI服务。

系统中的每个节点运行一个或通常多个微服务，每个微服务处理特定的功能集，如数据访问、元数据、审计、协议通信或可观测性。这些服务通过定义明确的API相互通信，实现整个基础设施的动态编排。

与绑定到刚性硬件架构的传统存储系统不同，NeuralMesh的完全容器化、面向服务的设计允许每个功能独立扩展。这提供了：弹性扩展到EB级及以上而不损失性能；适合安全多租户环境的细粒度资源隔离；跨裸机、云和混合部署的云原生灵活性。

关于扩展性能提升，WEKA提供了具体数据：NeuralMesh随着扩展变得更强大和有弹性，因为数据以小块形式跨所有故障域进行条带化，所以丢失一个节点只影响每个条带的微小部分。集群越大，条带分布越广，故障暴露度越小。例如：对于条带大小18(16+2)和集群大小20，可能的条带组合数量是190，增加一个服务器使集群大小达到21，可能的组合数量增加到1330。当集群大小增长到25时，可能的条带组合数量现在是480,700。

此外，每个可用的计算核心都参与重建的纠删码计算，即使它不拥有数据。例如，在50节点集群中1个节点故障，其他49个节点的核心参与恢复。在100节点集群中，99个节点的核心提供帮助——有效地将重建速度提高一倍。

NeuralMesh是获得WEKA软件的新方式。WARRP(WEKA AI RAG参考平台)包含在NeuralMesh中，增强内存网格(AMG)也是如此。关于这一点，Zvibel告诉我们："当我们运行这些工作负载并在后端网络上连接WEKA时，我们实际上可以访问8个NIC用于AUG。总共是128个PCIe通道。这实际上比CPU拥有的PCIe通道还要多。"

NeuralMesh软件目前以有限发布形式提供给企业和大规模AI部署，正式发布计划在2025年秋季。

上一篇：25名中学生火箭爱好者在青海成功发射探空火箭

下一篇：荣耀与中国移动宣布AI终端战略合作共同推进AI终端生态建设

WEKA推出NeuralMesh架构支持超大规模AI工作负载

相关内容

热门资讯