vivo谈未来ai的未来:学会“看懂世界”,而手机影像系统说不定就能成为这个起点

在博鳌亚洲论坛上,vivo和大家聊了聊AI的未来。他们觉得,AI真正要能走进物理世界,第一步得是学会“看懂世界”,而手机影像系统说不定就能成为这个起点。 为啥这么说?商汤科技联合创始人王晓刚把AI的发展分成了三个阶段:以前的AI1.0靠人工标注数据;现在的AI2.0靠海量互联网数据;未来的AI3.0,就必须进入物理世界。 你看现在的大模型,虽然在文字、网页这些结构化信息上表现不错,但真碰到现实生活里抓个水瓶这种事儿就不行了。因为重量、触感这些数据平时训练得太少。 这就像是说,AI现在还只能处理网上的数据,一碰到现实生活就两眼一抹黑。所以vivo觉得,要想真正的智能,就得让AI学会感知和理解周围的环境。 手机嘛,因为一直拿在手里、用得最多,反而成了最能收集现实世界信息的地方。vivo的影像技术负责人李卓就说,像X300 Ultra这种机型已经能做到实时分析环境结构了。 比如给视障人士用的话,摄像头能帮忙识别周围空间。再加上声音采集和动态变化的捕捉,影像系统就变成了一个能看清世界的多面眼睛。 以前我们用手机都是点来点去的,现在有了AI Agent,很多事能自己做了。但之前这些应用大多还是在数字世界里转悠,脱离了电脑或者手机屏幕就不行。 vivo觉得接下来的瓶颈在于让AI真正变得“智能”,而不是只是个工具。这就得让AI有预测能力和在不确定条件下做决定的本事。 要想实现这个目标,不光要把模型做得更大,更关键的是要改变数据来源和训练方式。未来的AI肯定要更依赖第一视角数据,也就是咱们拿着手机跟周围环境互动时产生的真实数据。 现在大家对影像的要求也变了,不再是单纯的拍照录像记录,而是要从中获取信息。在博鳌论坛这种密集的活动现场,vivo的影像系统也开始体现出它的实际价值了。 像新闻生产这种场景,以前还得靠人工去现场拍素材,现在有了手机就能直接捕捉到多维的环境信息。这么一来效率高多了。 李卓还提到一个词叫“具身智能”,就是说未来的AI得同时理解数字世界和物理世界才行。而这其中最不可回避的基础就是对物理世界的理解能力。 商汤科技的王晓刚也说过,现在的技术还处在依赖互联网数据的阶段(AI2.0),要往AI3.0走还得依赖于真实环境的训练数据。 至于还有哪些关键技术或者数据来源值得关注?那肯定还得看后续怎么发展吧。