最近一场关于具身智能的大讨论里,好些行业大佬聚在一块儿,讨论技术怎么突破,还有怎么把产品卖给客户。大家都说,中国的这个市场发展得很快,照现在的势头看,2030年可能就能达到4000亿元规模,等到2035年,搞不好还能超过万亿。这场对话让大家看清楚了,把实验室里的东西搬到现实生活里去用,其实挺不容易的。 银河通用的老板王鹤提到了一个叫数据金字塔的理论。他说具身智能用的数据分好几层:最底下是互联网上的海量信息;中间一层是人类日常行为的数据和合成出来的数据;最上面就是特别难得的真实世界的情况。这套在2025年就搭好了的数据架构,到了2026年,通过把VLA和世界动作模型结合起来,就能大变样了。这样就能帮机器人搞定操作和导航这类麻烦事儿。 为了解决怎么拿到数据这个难题,星动纪元的席悦想了个新法子。他也说了,现在大家遇到了麻烦,一方面是场景不能随便让人进去看,另一方面是收数据太费钱。以前那种非要完全照着真实环境做训练的老路子效率太低了。所以他们公司正建一个叫“数据飞轮”的系统,让机器人自己去处理那些极端情况,再加上人跟机器人一块干活来收数据,形成一个良性循环。 千寻的高阳拿GPT的发展过程来打比方说具身智能的进化。他觉得2025年就好比是GPT-2.0那个阶段,已经把基础搭好了,但模型还不太完美。等到2026年模型变大了、数据也多了很多倍的时候,大家就有希望在年底或者2027年的前半年达到GPT-3.0的水准。到了那个时候,机器人在适应各种环境上就会表现得更像真人了。 智平方的张鹏特别强调了验证场景的重要性。他说2025年的重点是把技术从实验室搬到现实环境里去试试水。2026年就得开始琢磨怎么把模型调优了。现在突破技术的关键是要提高模型在真实环境中的泛化能力。这就需要从设计模型和系统的底层架构上下手降低适配成本。最后还是得靠真实收数据跟生成数据这两手一起抓,才能让模型、硬件和场景融为一体。