WEKA推出NeuralMesh架构支持超大规模AI工作负载
创始人
2025-06-19 21:02:13
0

WEKA宣布推出NeuralMesh并行文件系统软件转型方案,用于加速大规模 AI应用。

该方案基于这样的认识:传统存储架构无法满足新型分布式AI代理训练和推理环境在规模、延迟敏感性和并发性方面的需求。NeuralMesh由运行在动态连接节点网格中的微服务组成,连接数据、存储、计算和AI。它能够提供保证微秒级延迟的SLA,并随着规模扩展变得更具弹性,更多节点参与从故障节点重建广泛分布的数据条带。

WEKA表示:"当硬件故障时,系统能在几分钟内重建,而不是几小时。随着数据增长到EB级,性能会提升而不是下降。"

WEKA联合创始人兼CEO Liran Zvibel表示:"AI创新继续以惊人的速度发展。推理时代已经到来。我们过去依赖的数据解决方案和架构无法支持代理AI和推理工作负载所需的巨大性能密度和规模。在我们的客户群中,我们看到PB级客户环境正在以难以理解的速度增长到EB级。未来是超大规模的。"

NeuralMesh可在本地、数据中心和边缘站点、裸机或虚拟机上运行,也可在公有云和新型云(如Nebius等GPU服务器集群)中运行,具有统一命名空间。它可以从小规模开始,容量从TB增长到PB再到EB,在此过程中提升整体性能和弹性。

Zvibel告诉B&F:"我们从很早就开始容器化,但现在我们让它更加正式化。我们让外界更容易看到它。我们添加了更多容器和服务类型。此外,我们让部署更加灵活,我们的一些容器也在客户端运行。基本上我们提供端到端的完整解决方案,我们已经开始在当前实现中这样做。当我们在许多大型新型云中运行时,我们开发了Kubernetes操作器,你可以将我们的操作器与他们的Kubernetes集成,然后我们就作为他们基础设施的一部分运行。"

他谈到新型云时说:"很多新型云都使用我们的基础设施。所以他们的客户可能不知道这是WEKA,有些会公开说明。我们刚刚宣布了Nebius,但我们拥有的Nvidia NCP云可能比任何人都多。"NCP代表Nvidia云合作伙伴。

NeuralMesh在所有节点间分布数据和元数据,通过内置的自愈合、自扩展和快速重建功能动态平衡I/O。WEKA表示,一家基因组学研究机构从2PB扩展到12PB,无需停机或重新平衡,实现了一致的I/O延迟并消除了周末维护窗口。

该软件支持并发模型训练和推理,"消除了传统存储层的性能瓶颈"。它提供实时的PB级可观测性,覆盖所有数据路径,提供性能指标和基础设施健康状况的洞察,集成了仪表板、警报和遥测API。

它还支持TLC/QLC NVMe SSD和对象存储之间的分层,以及容器存储集成,加上传输中和静态加密、快照、快照到对象和基于角色的访问控制(RBAC)。

NeuralMesh支持NvidiaAMD和其他供应商的GPU和加速器硬件。Stability AI的HPC工程主管Chad Wood表示:"使用WEKA,我们现在在AI模型训练期间实现了93%的GPU利用率,并以80%的先前成本将云存储容量增加了1.5倍。"

网格架构详情

在回答关于网格节点构成的问题时,WEKA解释道:NeuralMesh的网格架构有两个部分——微服务和节点。这两个概念协同工作,提供本质上是软件定义结构的网格,以模块化和可组合的方式互连数据、计算和AI服务。

系统中的每个节点运行一个或通常多个微服务,每个微服务处理特定的功能集,如数据访问、元数据、审计、协议通信或可观测性。这些服务通过定义明确的API相互通信,实现整个基础设施的动态编排。

与绑定到刚性硬件架构的传统存储系统不同,NeuralMesh的完全容器化、面向服务的设计允许每个功能独立扩展。这提供了:弹性扩展到EB级及以上而不损失性能;适合安全多租户环境的细粒度资源隔离;跨裸机、云和混合部署的云原生灵活性。

关于扩展性能提升,WEKA提供了具体数据:NeuralMesh随着扩展变得更强大和有弹性,因为数据以小块形式跨所有故障域进行条带化,所以丢失一个节点只影响每个条带的微小部分。集群越大,条带分布越广,故障暴露度越小。例如:对于条带大小18(16+2)和集群大小20,可能的条带组合数量是190,增加一个服务器使集群大小达到21,可能的组合数量增加到1330。当集群大小增长到25时,可能的条带组合数量现在是480,700。

此外,每个可用的计算核心都参与重建的纠删码计算,即使它不拥有数据。例如,在50节点集群中1个节点故障,其他49个节点的核心参与恢复。在100节点集群中,99个节点的核心提供帮助——有效地将重建速度提高一倍。

NeuralMesh是获得WEKA软件的新方式。WARRP(WEKA AI RAG参考平台)包含在NeuralMesh中,增强内存网格(AMG)也是如此。关于这一点,Zvibel告诉我们:"当我们运行这些工作负载并在后端网络上连接WEKA时,我们实际上可以访问8个NIC用于AUG。总共是128个PCIe通道。这实际上比CPU拥有的PCIe通道还要多。"

NeuralMesh软件目前以有限发布形式提供给企业和大规模AI部署,正式发布计划在2025年秋季。

相关内容

热门资讯

汇百盛激光取得激光切割工作台的... 金融界2025年8月23日消息,国家知识产权局信息显示,佛山汇百盛激光科技有限公司取得一项名为“一种...
丰宝恒取得无人机用空中抛投机构... 金融界2025年8月23日消息,国家知识产权局信息显示,四川丰宝恒科技集团有限公司取得一项名为“一种...
科技赋能口岸建设,智能查验助船... 8月20日,巴拿马籍船舶“安海珍珠”轮缓缓靠泊海南洋浦口岸,船上载有5万吨从印度尼西亚穆拉潘台运来的...
2个月造出世界级机器人,正面硬... 在首届世界人形机器人运动会上,一个不可思议的纪录诞生了——一家成立仅2个月的公司,在280支全球顶尖...
美的集团获得发明专利授权:“火... 证券之星消息,根据天眼查APP数据显示美的集团(000333)新获得一项发明专利授权,专利名为“火排...
尺素金声 | 算力全球第二,数... 近日,国家数据局发布消息:截至2025年6月底,我国算力总规模位居全球第二!我国数字基础设施在规模、...
中国电信栾晓维:云网智融,赋能... 8月22日至24日,2025中国算力大会在山西大同举行。在主论坛上,中国电信集团有限公司副总经理栾晓...
海口启动防汛防风IV级应急响应 海口市防灾减灾救灾消防和安全生产委员会关于启动防汛防风IV级应急响应的通知 市防安委会相关成员单位:...
华为开放式耳机好用吗?南卡、华... 在目前的开放式耳机市场,有一个有趣的现象:一方面,传统音频大厂把开放式耳机当作产品线的补充,研发投入...
Llama拉垮,Meta开始寻... 面对自研AI模型在与行业领先者竞争中显露的疲态,Meta正调整其长期坚持的内部开发战略,转而与外部A...
探访国家先进计算太原中心:国产... 来源:财联社 《科创板日报》8月23日讯(记者 张洋洋)在调度中心的大屏幕上,显示着工业仿真先进计算...
学院无人平台教学科研创新团队在... 在无人化、智能化重塑未来海战格局的浪潮中,学院无人平台教学科研创新团队精准锁定战场前沿,以“向科技要...
青岛前哨风动取得托板螺母气钻专... 金融界2025年8月23日消息,国家知识产权局信息显示,青岛前哨风动工具制造技术有限公司取得一项名为...
中轮动力取得双轮立式舵轮专利,... 金融界2025年8月23日消息,国家知识产权局信息显示,中轮动力科技(广州)有限公司取得一项名为“一...
大学生开发者同台竞技!vivo... 人工智能产业的长远发展,需要一批批青年人才投身其中。近年来,人工智能领域的创新竞赛如雨后春笋般涌现,...
原创 比... 在今年上半年,小米推出了搭载自研SoC芯片——玄戒O1的小米15S Pro,技惊四座。这也是自201...
原创 苹... 综合彭博社及macrumors报道,当地时间8月22日,苹果公司在美国加利福尼亚州圣何塞联邦法院起诉...
宁夏煤业深挖产业潜力——“神宁... 现代煤化工是宁夏优势产业之一。如何高效用煤,把资源优势转化为发展优势?国家能源集团宁夏煤业有限责任公...
英华特获得发明专利授权:“一种... 证券之星消息,根据天眼查APP数据显示英华特(301272)新获得一项发明专利授权,专利名为“一种驱...
30家炒菜机器人平谷“实战”比... 工作人员操控机器人炒菜。平谷区委宣传部供图 机器人炒制的酸辣土豆丝。 本报记者 朱松梅 首届中国炒...