这两条路能不能合并?“混合脑”或许是终极答案

自动驾驶车从实验室开上马路时,“鲁棒性”成了一个大难题,比如极端天气、行人突然出现、光线突变、边缘案例等。为了解决这个问题,车企开始研究两个技术路线:一个是VLA模型,一个是世界模型。VLA模型就像给车装了一个视觉大脑,能把摄像头、雷达收集到的数据转换成高维特征向量,再用类语言模型翻译成人类能理解的文本描述,最后做出判断和动作规划。这个过程简单来说就是看、想、再动。它的优点是语义清晰、能端到端泛化、人机交互友好。但是VLA模型在遇到缺乏视觉线索或极端情况时,只能被动反应。同时,它对算力和预判能力的要求也很高。 世界模型则是给汽车装了一个虚拟引擎。它在内部构建一个外部世界的虚拟副本,把所有信息都写成数学方程和概率图。系统会在这个虚拟世界里做推演,预测前方车辆会不会突然刹车、行人会不会冲出等等。它的优点是能提前预警、极端场景可制造、还有多一层安全冗余。但世界模型也有局限,它需要高精度建模和实时仿真支持,否则很容易出问题。还有一个问题是它的决策过程经常被看成黑箱,责任判定也比较难。 虽然VLA和世界模型各有优劣,但它们并不是零和博弈。可以把两者结合起来形成混合脑架构。这样就能让VLA负责语义理解和高层决策,世界模型负责预测仿真和安全冗余。最后把轻量级预测模块嵌入到VLA中形成闭环。这样一来,自动驾驶系统就能兼顾泛化能力、实时性能与安全冗余了。 当“视觉大脑”和“数字地球”握手言和时,自动驾驶才真正离可靠落地近了一步。毕竟无论是VLA还是世界模型都有自己的优缺点,只有把它们结合起来才能发挥出最大作用。毕竟1%的误差可能在虚拟世界引发连锁车祸;同时需要考虑到GPU算力和实时性能等问题。 这两条路能不能合并?“混合脑”或许是终极答案。我们拭目以待吧!