这座数据工厂物理空间近12000平方米。
多维触觉灵巧手。
当行业目光仍聚焦于机器人本体的精巧设计与算法模型的迭代时,一场关于基建的布局竞赛已悄然展开。
6月25日,南都湾财社记者从深圳帕西尼感知科技(下称“帕西尼”)方面获悉,其主导建设的具身智能超级数据工厂(Super EID Factory)已正式投入运营。据了解,这座数据工厂物理空间近12000平方米,预计每年可生产近2亿条包含丰富维度的高质量训练数据。
具身智能竞赛转向“基建”
帕西尼方面表示,建厂的核心目标是为当前具身智能产业提供大规模、高质量的多模态训练数据,尤其是解决稀缺的触觉模态数据供给不足的问题。这一瓶颈普遍被认为是限制机器人习得复杂技能、提升泛化能力、走向更广泛应用场景的关键制约因素。
为破解这一难题,该工厂采用了一套“无本体依赖”的数据采集系统,通过部署150个标准化的采集单元,直接捕捉人类在真实场景中完成复杂任务时的手部动作姿态、空间轨迹和力学交互信息。这一方式在理论上能够显著降低数据生产的成本,并摆脱特定机器人构型的限制,使产出的数据具备更广泛的通用性。
在此基础上,该工厂通过其自研的“多模态神经织网技术(Neural Mesh)”,将高精度的触觉数据与视觉、关节角度、语音等信息进行同步融合,形成丰富的高维数据流。同时,借助“体感重定向系统(Soma Redirect)”,这些采集自人类的数据能够被有效适配和“重定向”至不同结构、不同型号的机器人本体上,旨在解决长期困扰行业的模型跨本体泛化难题,让模型训练的成果能在更广泛的硬件上得到应用。
事实上,为解决数据这一根本性问题,具身智能全行业正呈现出多元化的基础设施建设路径。帕西尼的“第三方数据服务工厂”模式是其中之一,但并非孤例。
以上海的智元机器人为例,其正采取一种“自建自用”的垂直整合策略。该公司在推进临港量产工厂建设的同时,也在张江建立了大规模的数据采集中心,通过上百台机器人进行7x24小时不间断的数据生产与模型训练,旨在形成软硬件一体、数据闭环的快速迭代优势。
不止于成为“数据供应商”
与企业级的“自建”模式相对应,一种“生态共建”的平台化思路也在国内两大科创高地——北京和粤港澳大湾区兴起。
在北京,由政府和多家龙头企业联合组建的具身智能机器人创新中心,其核心任务之一便是建设“人工智能公共算力平台”和行业数据集,为区域内的企业提供基础资源支持。在华南,广东省具身智能机器人创新中心同样致力于整合高校与产业链资源,建立共享的数据采集与管理机制,降低创新门槛,培育产业生态。
这三种模式——第三方专业服务、头部企业垂直整合、区域性公共平台——共同构成了当前中国具身智能产业在数据基础设施层面的探索图景。它们分别满足了不同发展阶段、不同技术路线的企业的需求,也从侧面印证了数据作为核心生产资料的战略价值已成为行业共识。
不过,许多企业的战略意图远远不止于成为一家“数据供应商”。以帕西尼为例,据介绍,其工厂产出的数据将用于构建其“全模态数据集(OmniSharing DB)”,并与自研大模型形成“数据喂养模型、模型指导采集”的增长飞轮。其最终目标,是构建一个能够深刻理解物理世界规律的“世界模型”,并计划将工厂的数据能力向全球产业生态开放。
总体来看,无论是哪种模式,具身智能数据工厂的相继涌现,都是行业从理论走向实践、从原型走向产品的关键信号。这也意味着产业竞争的维度正在深化,不再仅是算法或硬件的单点比拼,而是涵盖数据生产、模型训练、垂直整合能力的体系化竞争。
采写:南都·湾财社记者 严兆鑫 受访者供图