vivo谈未来ai的未来：学会“看懂世界”，而手机影像系统说不定就能成为这个起点

在博鳌亚洲论坛上，vivo和大家聊了聊AI的未来。他们觉得，AI真正要能走进物理世界，第一步得是学会“看懂世界”，而手机影像系统说不定就能成为这个起点。为啥这么说？商汤科技联合创始人王晓刚把AI的发展分成了三个阶段：以前的AI1.0靠人工标注数据；现在的AI2.0靠海量互联网数据；未来的AI3.0，就必须进入物理世界。你看现在的大模型，虽然在文字、网页这些结构化信息上表现不错，但真碰到现实生活里抓个水瓶这种事儿就不行了。因为重量、触感这些数据平时训练得太少。这就像是说，AI现在还只能处理网上的数据，一碰到现实生活就两眼一抹黑。所以vivo觉得，要想真正的智能，就得让AI学会感知和理解周围的环境。手机嘛，因为一直拿在手里、用得最多，反而成了最能收集现实世界信息的地方。vivo的影像技术负责人李卓就说，像X300 Ultra这种机型已经能做到实时分析环境结构了。比如给视障人士用的话，摄像头能帮忙识别周围空间。再加上声音采集和动态变化的捕捉，影像系统就变成了一个能看清世界的多面眼睛。以前我们用手机都是点来点去的，现在有了AI Agent，很多事能自己做了。但之前这些应用大多还是在数字世界里转悠，脱离了电脑或者手机屏幕就不行。 vivo觉得接下来的瓶颈在于让AI真正变得“智能”，而不是只是个工具。这就得让AI有预测能力和在不确定条件下做决定的本事。要想实现这个目标，不光要把模型做得更大，更关键的是要改变数据来源和训练方式。未来的AI肯定要更依赖第一视角数据，也就是咱们拿着手机跟周围环境互动时产生的真实数据。现在大家对影像的要求也变了，不再是单纯的拍照录像记录，而是要从中获取信息。在博鳌论坛这种密集的活动现场，vivo的影像系统也开始体现出它的实际价值了。像新闻生产这种场景，以前还得靠人工去现场拍素材，现在有了手机就能直接捕捉到多维的环境信息。这么一来效率高多了。李卓还提到一个词叫“具身智能”，就是说未来的AI得同时理解数字世界和物理世界才行。而这其中最不可回避的基础就是对物理世界的理解能力。商汤科技的王晓刚也说过，现在的技术还处在依赖互联网数据的阶段（AI2.0），要往AI3.0走还得依赖于真实环境的训练数据。至于还有哪些关键技术或者数据来源值得关注？那肯定还得看后续怎么发展吧。