问题——通用智能走向现实场景面临“开放世界”挑战 近年来,大模型等技术快速发展,但真实世界复杂环境中仍存在感知不稳定、任务链条长、跨场景泛化不足、与人协作成本高等瓶颈;尤其在开放环境下,智能体既要“看得懂”多源信息,又要“想得清”复杂目标,还要“做得成”可验证的行动闭环,并在与人互动中保持一致的行为规范与可解释性。这些问题决定了通用智能能否从实验室走向产业与社会应用。 原因——从“能力拼图”走向“系统工程”成为关键路径 业内普遍认识到,通用智能不是单项指标的累加,而是感知、认知、行动、交互与安全机制的系统耦合。一上,单一任务数据训练难以覆盖现实环境的长尾情况,必须依托高保真仿真与多任务学习提升泛化能力;另一方面,智能体若要与机器人等物理载体协同,需要将策略、控制与本体能力打通,解决从决策到动作执行的“最后一段距离”。该背景下,通用智能人的迭代与具身智能引擎的推出,体现出从算法能力到工程体系的整体推进。 影响——“通通”3.0聚焦三类核心能力升级,“通脑”推动机器人技能迁移与部署 本次发布的通用智能人“通通”3.0,突出在空间智能、认知智能、社交智能三上实现升级:空间智能上,能够区分三维虚拟具身空间与二维视频信息流,强化对环境的感知、对齐与映射能力,为面向开放环境的交互奠定基础;在认知智能上,强调复杂任务的自主规划与并行管理,能够根据环境变化动态调整行动路径,提高任务执行的连续性与稳定性;在社交智能上,增强对情绪与意图的识别能力,并可在多智能体共存的虚拟社区环境中开展拟人化互动,在协作与共情等复杂社交情境中提供辅助、缓解冲突。 值得关注的是,“通通”3.0在多轮对话中强调价值取向与表达的一致性,并通过透明推理过程提升可解释与可追溯能力,有助于减少传统模型在长链条推理中可能出现的逻辑偏差与不一致风险,为面向公众与行业的应用提供更可控的交互基础。 与“通通”3.0同步亮相并入选论坛年会重大成果的具身智能核心引擎“通脑”,聚焦“通用智能体—物理机器人”的双向贯通,提出以“数据—大脑—小脑—本体”协同演进的技术路线,目标是推动具身机器人从依赖遥控与演示的阶段,迈向可自主决策、持续学习、跨场景泛化的通用化阶段。据介绍,“通脑”通过融合全身运动控制、强化学习、世界模型与场景解译等能力,支持将通用策略映射到不同类型机器人执行,实现跨场景、跨任务、跨本体的高效学习与部署,进而提升机器人与物理世界交互的可靠性与适应性。 对策——以高保真仿真与工程化平台夯实“训练—验证—部署”闭环 为支撑通用智能人的成长与演进,对应的团队构建了“全场景、多任务、高保真”的三维仿真虚拟世界平台,提供室内精细化场景与城市级户外环境,尽可能还原物理规律、交互细节与社交要素。该思路体现出三项工程化对策:其一,以仿真平台降低真实世界试错成本,提升训练规模与安全性;其二,以多任务与多主体交互增强对复杂社会场景的适配能力;其三,通过可解释机制与可追溯链路,为应用落地提供更清晰的安全边界与责任界定基础。 面向产业应用,还需深入在标准接口、数据治理、测试评估与安全合规上形成体系化安排,推动通用智能与机器人产业链上下游协同,促进算法能力、硬件能力与场景需求的匹配,避免“能展示、难应用”的重复投入。 前景——从“技术演示”走向“场景深耕”,通用智能将加速进入验证期与规模化探索期 从本次发布看,通用智能的发展正由能力展示向系统构建转变:一上,面向开放世界的空间与认知能力提升,有望推动服务、教育、文旅、公共管理等领域的交互式应用探索;另一上,具身智能引擎的出现,为机器人在工业生产、仓储物流、养老照护、应急救援等复杂场景的持续学习与快速部署提供新的技术路径。下一阶段,行业竞争焦点或将从参数规模转向“可落地能力”,包括跨场景泛化、任务闭环稳定性、人机协作效率以及安全可控水平。随着评测体系与应用标准逐步完善,通用智能与具身智能的融合发展有望带来更多可复制、可推广的示范应用。
通用智能对话迈向智能执行,单点突破转向系统升级,标志着通用智能进入注重工程化和实用性的新阶段。将技术优势转化为实际生产力,既需要持续的基础研究,也离不开场景化应用和系统治理。未来,能够率先建立可验证、可复制落地路径的企业,将在新一轮科技产业变革中占据优势。