纵观智能辅助驾驶技术的发展历程,人工智能的不断突破显著提升了智能辅助驾驶的感知性能。从卷积神经网络(CNN)的引入,到循环神经网络(RNN)的应用,再到结合鸟瞰图(BEV)与Transformer(自注意力机制的神经网络架构)的创新,再到当下的端到端结合VLM(视觉语言模型)统揽全局,AI不断改善出行体验。
时至今日,智能辅助驾驶技术和体验的变革,正在迎来更大的机遇,甚至将迅速改写以往的竞速规则。自今年开始,一种全新的技术范式正在开启落地,头部玩家有了爆款证明,引领行业跟进对齐,隐隐成为共识趋势。这种技术范式就是视觉语言动作模型(VLA,Vision-Language-Action)。
当特斯拉在2023年宣布FSD BetaV12(完全自动驾驶测试版)全面转向端到端架构时,行业首次意识到,传统“感知-决策-控制”的模块化体系正在遭遇颠覆。随着VLA模型的出现,将这场变革推向了更深维度——这种融合视觉、语言理解与行动决策的AI架构,拥有更高的场景推理能力与泛化能力,正在重新定义智能辅助驾驶的底层逻辑。据此,不少智驾人士都将VLA视为当下端到端方案的2.0版本,2025年则被称为“VLA上车元年”。
而在汽车制造方面,AI同样发挥着巨大作用。从辅助工人操作的智能提醒,到跨系统自动协同的智能执行,再到自主优化流程的智能进阶,AI正驱动汽车制造从传统的流水线,向高效协同、自主优化、数据驱动的“智能岛”范式跃迁。
● 熊永红 龚梦泽 张妍頔
VLA模型受推崇
事实上,VLA模型最早见于机器人行业,通过输入给定的文本和视觉数据,输出机器人可执行的动作,天然便带有AI与物理世界交互的基因。2023年7月28日,谷歌DeepMind推出了全球首个控制机器人的VLA模型。如今这一模型概念正快速扩散到智驾领域。