问题:人工智能进入“云+应用”驱动的新阶段后,企业面临的核心矛盾从“能否训练大模型”转向“能否稳定、低成本、高效率地把能力用起来”。推理侧的高并发、低时延与持续迭代,对算力供给、调度效率和工程化能力提出更高要求;同时,多行业仍处探索期,普遍存在工具链割裂、资源利用率不高、部署运维成本偏高等问题,影响应用规模化落地。 原因:一上,生成式应用从试点走向生产,推理调用量快速上升。机构预测,未来数年推理市场将保持较高增速,成为算力需求增长的重要来源。另一方面,算力形态趋于异构与集群化,软硬件协同复杂度增加,仅靠堆叠资源难以同时满足稳定性与成本控制。,机器人等新兴赛道对数据工程、仿真训练、端云协同等能力依赖更强,需要更完整的平台支撑,推动“算力—平台—应用”协同演进。 影响:鉴于此,金山云宣布“星流”完成战略升级,由资源管理平台转向一站式AI训推全流程平台。其目标是打通从异构资源调度、训练任务保障到行业应用支撑、模型服务商业化的闭环:在训推平台层面,覆盖模型开发、训练、推理与数据处理等模块,降低多模块协同门槛,提升“开箱即用”的工程体验;在稳定性层面,通过GPU故障自愈与任务可观测性设计,实现硬件健康与任务进程的实时监控,并在异常时触发迁移与重调度,减少算力中断对长周期训练与在线推理的影响;在行业平台层面,推出面向机器人开发与落地的云原生平台,打通数据采集、存储、标注、模型训练、部署与仿真等关键链路,形成面向具身场景的数据、模型、仿真一体化能力;在服务化层面,面向企业用户提供模型API服务,强调高可用、易集成与高并发推理,并支持多模型管理,降低应用接入成本。 对策:面对推理需求快速增长与行业落地碎片化的双重挑战,平台化、标准化与生态化成为行业的共同方向。金山云的路径是以“训推一体”提升研发与交付效率,以可观测与自愈机制增强稳定性,以行业平台和模型服务降低应用门槛,并通过生态合作扩大服务覆盖。市场层面,机构数据显示,中国AI云市场在生成式需求带动下增长明显,产业链对算力与平台服务的需求正从单点能力转向全链路能力。金山云表示,将把生态内外的服务经验沉淀为可复用能力,以提升对不同行业的响应速度与持续交付能力。 前景:从产业演进看,推理将长期保持高景气,但竞争焦点将从“谁有算力”转向“谁能把算力用好、用稳、用省”。未来平台能力的比拼,关键在于三点:其一,资源调度与成本效率能否优化,支撑更高并发与更低时延;其二,工程化与可靠性体系是否完善,能否在大规模生产环境中保持稳定;其三,能否围绕重点行业形成可复制的解决方案,把通用能力转化为可落地的业务价值。随着模型生态不断丰富、企业对多模型协同需求上升,一站式接入与统一治理也将成为重要方向。据介绍,“星流”已支持近40种模型资源,试图以统一入口提升企业选择与切换效率,让用户将更多精力投入业务创新。
人工智能产业正进入以推理应用为主的新阶段;从模型训练走向推理落地,意味着AI从验证走向生产,对稳定性、成本和工程效率提出了更高要求。在此过程中,智算平台承担着连接算力与业务的关键角色。金山云星流平台的升级,说明了其从资源供给走向全流程能力建设的策略。随着推理市场扩张和场景持续丰富,能够提供一站式、全链路能力的平台,将更具竞争优势。下一步,如何在保障服务质量的同时继续降低使用成本、拓展可落地的应用边界,将成为智算平台提供商需要持续解决的问题。