作者|杨逍
编辑|邓咏仪
2023年以来,机器人领域的创业纷连不断。部分公司选择从人形机器人出发,希望创造出能独立行走、完成部分复杂工作的通用形态;也有部分公司的研究侧重于突破机器人全脑模型,希望赋能机器人,让其具备接受人类指令并规划拆解任务的通用决策能力。
千诀科技是一家专注于机器人大模型研发的创业公司,希望研究出适配不同机器人设备形态的通用机器人大模型。
在产品思路上,千诀科技的机器人大模型分为感知、决策、控制三个部分。近期,千诀科技的感知模型“千诀·丘脑”取得了较大产品突破。
丘脑是一个多功能的脑区,用于将动物的多模态感官信息进行提取,传输至大脑皮层。丘脑的作用远超过一个简单的信息传递站,它除了收发感官信息以外,还要对其进行一定的处理,包括压缩、解析以及调节生理信号等,对生物体智能的发挥起着至关重要的作用。
多模态迭代的丘脑思维链
相比于眼睛等各类基础感官,丘脑的突出功能在于其有一定的思维能力。千诀科技推出了“千诀·丘脑”大模型,希望赋予通用机器人以感知世间万物的能力。使用小型化语言模型作为丘脑的中央处理器,通过构建多模态相互迭代的思维链,实现对物体状态属性由粗到细的感知。
物体操作属性感知
据千诀科技创始人兼CEO高海川介绍,相比于传统检测和图文匹配等计算机视觉工作,机器人“丘脑”具有一定的思维能力,在感知过程中就快速完成对所摄入的环境信息的非结构化思维;相比于机器人决策大脑,丘脑的思维又具有快速性的特征。
而在呈现出来的效果上,千诀·丘脑已支持识别物体与机器人操作相关的大部分属性。它支持中文输入输出,会自动反馈上述属性,包括检测定位以及丰富的状态信息。
在感知物体的颗粒度细节上,基于自动化的多模态思维链,千诀·丘脑可感知物体的细粒度细节,例如瓶盖、把手等。
物体一般性属性识别
在感知物体的类型上,千诀·丘脑可感知物体的种类数已覆盖了衣食住行、日用百货,还包含飞禽走兽、草木虫鱼。此外,它还体现出了一定的本土化色彩,能检测出具有中国特色的食物等。
特色物体识别
高海川表示,它可以向大量训练集以外的物体泛化,推演出千变万化的物体种类,哪怕是对非常存在疑惑性表述的物体,也可以精准识别,包括用方言描述、网络流行词描述等,并可服务于机器人以外的诸多应用领域。
不同颗粒度物体识别
在千诀·丘脑加持下,团队打造了一款自主决策服务机器人,支持办公室环境通用任务的端到端拆解与执行。
未来,千诀科技会持续对丘脑进行更迭,朝着感知物体更细微特征的方向发展,希望打造一个“其大无外、其小无内”的全属性感知器。
此外,千诀科技预计于2024年初发布机器人决策模型——千诀·大脑,将感知模型和决策模型联动,提升产品的通用化与智能化,以赋能更多的机器人厂商,降低大模型应用门槛。
机器人大模型的一个训练难点是缺少高质量的机器人数据集。经过近半年的发展,千诀科技在数据集规模、数据标注维度上都有所提升。公司形成了一套开发机器人大模型的流水作业线,能够自动化的标注、开发、清洗、微调数据,从而快速的迭代模型。
在产品形态上,千诀科技提供API形式的大模型接口,也会和硬件公司合作,推出对应的脑坞产品。
在团队背景上,千诀科技的创始团队出自清华大学自动化系老牌实验室,专注于AI和机器人领域的研发,对大模型训练和机器人决策算法有较深理解。