WEKA宣布推出NeuralMesh并行文件系统软件转型方案,用于加速大规模 AI应用。
该方案基于这样的认识:传统存储架构无法满足新型分布式AI代理训练和推理环境在规模、延迟敏感性和并发性方面的需求。NeuralMesh由运行在动态连接节点网格中的微服务组成,连接数据、存储、计算和AI。它能够提供保证微秒级延迟的SLA,并随着规模扩展变得更具弹性,更多节点参与从故障节点重建广泛分布的数据条带。
WEKA表示:"当硬件故障时,系统能在几分钟内重建,而不是几小时。随着数据增长到EB级,性能会提升而不是下降。"
WEKA联合创始人兼CEO Liran Zvibel表示:"AI创新继续以惊人的速度发展。推理时代已经到来。我们过去依赖的数据解决方案和架构无法支持代理AI和推理工作负载所需的巨大性能密度和规模。在我们的客户群中,我们看到PB级客户环境正在以难以理解的速度增长到EB级。未来是超大规模的。"
NeuralMesh可在本地、数据中心和边缘站点、裸机或虚拟机上运行,也可在公有云和新型云(如Nebius等GPU服务器集群)中运行,具有统一命名空间。它可以从小规模开始,容量从TB增长到PB再到EB,在此过程中提升整体性能和弹性。
Zvibel告诉B&F:"我们从很早就开始容器化,但现在我们让它更加正式化。我们让外界更容易看到它。我们添加了更多容器和服务类型。此外,我们让部署更加灵活,我们的一些容器也在客户端运行。基本上我们提供端到端的完整解决方案,我们已经开始在当前实现中这样做。当我们在许多大型新型云中运行时,我们开发了Kubernetes操作器,你可以将我们的操作器与他们的Kubernetes集成,然后我们就作为他们基础设施的一部分运行。"
他谈到新型云时说:"很多新型云都使用我们的基础设施。所以他们的客户可能不知道这是WEKA,有些会公开说明。我们刚刚宣布了Nebius,但我们拥有的Nvidia NCP云可能比任何人都多。"NCP代表Nvidia云合作伙伴。
NeuralMesh在所有节点间分布数据和元数据,通过内置的自愈合、自扩展和快速重建功能动态平衡I/O。WEKA表示,一家基因组学研究机构从2PB扩展到12PB,无需停机或重新平衡,实现了一致的I/O延迟并消除了周末维护窗口。
该软件支持并发模型训练和推理,"消除了传统存储层的性能瓶颈"。它提供实时的PB级可观测性,覆盖所有数据路径,提供性能指标和基础设施健康状况的洞察,集成了仪表板、警报和遥测API。
它还支持TLC/QLC NVMe SSD和对象存储之间的分层,以及容器存储集成,加上传输中和静态加密、快照、快照到对象和基于角色的访问控制(RBAC)。
NeuralMesh支持Nvidia、AMD和其他供应商的GPU和加速器硬件。Stability AI的HPC工程主管Chad Wood表示:"使用WEKA,我们现在在AI模型训练期间实现了93%的GPU利用率,并以80%的先前成本将云存储容量增加了1.5倍。"
网格架构详情
在回答关于网格节点构成的问题时,WEKA解释道:NeuralMesh的网格架构有两个部分——微服务和节点。这两个概念协同工作,提供本质上是软件定义结构的网格,以模块化和可组合的方式互连数据、计算和AI服务。
系统中的每个节点运行一个或通常多个微服务,每个微服务处理特定的功能集,如数据访问、元数据、审计、协议通信或可观测性。这些服务通过定义明确的API相互通信,实现整个基础设施的动态编排。
与绑定到刚性硬件架构的传统存储系统不同,NeuralMesh的完全容器化、面向服务的设计允许每个功能独立扩展。这提供了:弹性扩展到EB级及以上而不损失性能;适合安全多租户环境的细粒度资源隔离;跨裸机、云和混合部署的云原生灵活性。
关于扩展性能提升,WEKA提供了具体数据:NeuralMesh随着扩展变得更强大和有弹性,因为数据以小块形式跨所有故障域进行条带化,所以丢失一个节点只影响每个条带的微小部分。集群越大,条带分布越广,故障暴露度越小。例如:对于条带大小18(16+2)和集群大小20,可能的条带组合数量是190,增加一个服务器使集群大小达到21,可能的组合数量增加到1330。当集群大小增长到25时,可能的条带组合数量现在是480,700。
此外,每个可用的计算核心都参与重建的纠删码计算,即使它不拥有数据。例如,在50节点集群中1个节点故障,其他49个节点的核心参与恢复。在100节点集群中,99个节点的核心提供帮助——有效地将重建速度提高一倍。
NeuralMesh是获得WEKA软件的新方式。WARRP(WEKA AI RAG参考平台)包含在NeuralMesh中,增强内存网格(AMG)也是如此。关于这一点,Zvibel告诉我们:"当我们运行这些工作负载并在后端网络上连接WEKA时,我们实际上可以访问8个NIC用于AUG。总共是128个PCIe通道。这实际上比CPU拥有的PCIe通道还要多。"
NeuralMesh软件目前以有限发布形式提供给企业和大规模AI部署,正式发布计划在2025年秋季。