李想发布理想汽车自动驾驶模型mindvla

3月18日，李想在社交媒体上发布了一篇长文，他讲述了刚刚发布的理想汽车自动驾驶模型MINDVLA。他把这个模型描述为通用的物理世界智能体，意思是它不再局限于在汽车中运行，而是能在各个物理环境中使用。李想给大家展示了一个观点，就是自动驾驶不再是简单的驾驶技术，而是将空间理解、思考推理和驾驶行为统一在一个模型里。而这个突破主要归功于三维视觉编码器，也就是原生3D VIT。李想解释了为什么端到端模型以前都是二维的，原因是它们没有经过三维预训练。但理想汽车的3D VIT解决了这个问题，它一开始就是在三维空间中工作。这个3D VIT让MindVLA-o1拥有了空间理解、思考推理和驾驶行为统一在一个模型中的能力。MindVLA-o1不仅能够看见世界，还能在隐空间里模拟未来几秒的场景变化，然后再做出决策。李想说这个能力叫多模态思考。他给大家展示了一个验证结果，就是这个基座模型不仅能用于自动驾驶，还能控制机器人。他把这个基座模型描述为通用的物理世界智能体。和马斯克提到的特斯拉ADS一样，理想汽车的自动驾驶模型把这种通用能力给实现了。李想希望国内新能源汽车品牌都能拥有自研能力和自己的智驾路线。