3月18日,李想在社交媒体上发布了一篇长文,他讲述了刚刚发布的理想汽车自动驾驶模型MINDVLA。他把这个模型描述为通用的物理世界智能体,意思是它不再局限于在汽车中运行,而是能在各个物理环境中使用。李想给大家展示了一个观点,就是自动驾驶不再是简单的驾驶技术,而是将空间理解、思考推理和驾驶行为统一在一个模型里。而这个突破主要归功于三维视觉编码器,也就是原生3D VIT。 李想解释了为什么端到端模型以前都是二维的,原因是它们没有经过三维预训练。但理想汽车的3D VIT解决了这个问题,它一开始就是在三维空间中工作。这个3D VIT让MindVLA-o1拥有了空间理解、思考推理和驾驶行为统一在一个模型中的能力。MindVLA-o1不仅能够看见世界,还能在隐空间里模拟未来几秒的场景变化,然后再做出决策。 李想说这个能力叫多模态思考。他给大家展示了一个验证结果,就是这个基座模型不仅能用于自动驾驶,还能控制机器人。他把这个基座模型描述为通用的物理世界智能体。和马斯克提到的特斯拉ADS一样,理想汽车的自动驾驶模型把这种通用能力给实现了。李想希望国内新能源汽车品牌都能拥有自研能力和自己的智驾路线。