问题——智能体应用扩张,推理“用量大、费用高” 近期,开源智能体软件OpenClaw全球范围内获得广泛关注。与以往以问答为主的大模型使用方式不同,智能体往往需要长上下文、多轮规划与多工具调用,执行网络检索、图像生成、数据分析等任务时,推理Token消耗呈倍增趋势。业内人士指出,这类应用的核心挑战不再仅是“能否完成任务”,而是“能否以可承受的成本持续运行”。对企业与个人用户来说,Token费用直接影响智能体是否能够从试用走向常态化部署。 原因——需求端骤增叠加供给端约束,成本压力集中显现 从需求看,智能体将任务拆解为多个步骤并反复迭代,客观上推高单位任务的推理计算量;同时,面向企业流程自动化的应用常要求7×24小时运行,带来持续的Token开销。从供给看,高性能推理对算力、显存容量、带宽与时延提出更高要求,而高端硬件部署成本、能源消耗与机房资源约束等因素,使得算力供给难以在短时间内“无限扩张”。,部分国内大模型服务凭借相对更低的调用价格吸引了更多开发者与企业客户,但行业普遍认为,距离“普惠可用”的成本区间仍有差距。 影响——竞争焦点从“模型能力”转向“应用落地效率”,产业链面临重构 云天励飞董事长兼首席执行官陈宁近日提出,未来5至10年,全球竞争的重点或从“谁的模型更聪明”转向“谁能让智能体应用大规模落地”。这个判断折射出产业变化:当模型能力差距逐渐收敛,推理成本、部署效率、生态兼容和运维能力将成为商业化的关键变量。同时,智能体对低时延、高吞吐、长上下文处理的需求上升,推动芯片厂商、系统厂商与软件生态在推理链路上进行更深层次协同优化。 对策——国产企业提出成本“百万倍下降”目标,探索软硬协同新路径 针对成本瓶颈,陈宁提出在“十五五”期间通过多种技术与工程手段将推理成本降低100万倍,并给出到2030年实现“百亿Token仅需1分钱”的目标。围绕这一目标,云天励飞发布新一代GPU路线图,提出GPNPU芯片概念,强调兼容主流开发生态,支持以较小改动实现从既有GPU环境向国产芯片的迁移部署。 在系统架构层面,该公司提出将推理流程中的prefill与decode进行分离:P类芯片侧重计算密集型环节,D类芯片侧重访存密集型环节,以提升推理效率与性价比;同时规划多芯片协同的“超节点”方案。按其路线图,2026年将推出第一代超节点P芯片,算力目标对标国际主流架构同代产品;2027年将推出第一代超节点D芯片,主打低时延推理;2028年规划第二代超节点D芯片,继续面向毫秒级时延需求。业内认为,这类“分工式”推理架构若能在软件栈、编译器、调度与网络互联诸上形成系统能力,有望特定场景中打开成本下降空间,但其工程化落地仍需时间验证。 前景——算力“真空”或将延续,围绕智能体的架构升级加速 在国际层面,英伟达首席执行官黄仁勋在对应的会议上分享了对智能体趋势的判断,并将OpenClaw称为具有标志意义的软件发布之一。他认为,智能体普及将显著抬升推理需求,形成阶段性的算力紧张,并推动下一代架构更聚焦长上下文与智能体约束优化。市场分析人士指出,这意味着行业的创新重心正从训练扩展到推理优化,显存容量、带宽效率、软硬协同与平台化能力的重要性提高。 展望未来,智能体应用若要进入政务、金融、制造、教育、医疗等更广泛场景,除了继续降低Token成本,还需要在数据安全、可靠性、可解释性与合规治理上同步推进。同时,国产算力生态要实现规模化替代与稳定供给,仍需在开发者生态、基础软件、供应链韧性与标准体系建设上持续投入。
全球AI产业正从技术竞争转向应用竞争;国产GPU厂商的降本目标,既是对市场需求的响应,也展现了突破国际垄断的决心。从OpenClaw的爆发到厂商布局智能体时代趋势已明:AI大规模应用势不可挡。在这场竞争中,成本与效率将成为制胜关键,国产芯片的探索值得持续关注。