面向大模型应用从“能用”走向“好用、可用、规模化”的新阶段,推理效率与成本控制正在成为行业共同关切。
尤其是在客服、研发辅助、运维自动化、数据分析等需要实时交互与连续执行的Agent工作流中,模型不仅要“答得对”,更要“跑得快、用得起、运行稳”。
在这一背景下,阶跃星辰发布开源Agent基座模型Step 3.5 Flash,试图为实时场景提供更具性价比的底层能力支撑。
问题在于,随着推理需求快速增长,企业在落地过程中普遍面临三重约束:一是延迟要求更严,交互式任务对响应时间高度敏感;二是推理成本居高不下,算力开销直接影响业务可持续性;三是部署复杂度上升,不同硬件与软件栈差异带来的适配成本,影响模型在行业中的复制推广。
尤其对中小企业与开发者而言,“模型能力”之外的工程门槛,往往成为应用扩散的关键阻碍。
导致上述问题的核心原因,在于推理阶段的计算负担与资源利用效率。
大参数模型在带来能力提升的同时,也推高了算力消耗;而通用模型若缺乏针对性优化,在Agent链式调用、工具调用、代码生成与执行等场景中容易出现吞吐不足、成本偏高、稳定性不均等问题。
与此同时,推理正在逐步取代训练成为主要算力消耗环节,产业竞争焦点也随之从“更大规模训练”转向“更高效推理与更快部署”。
此次发布的Step 3.5 Flash被定位为面向实时Agent工作流的基座模型。
据发布信息,在单请求代码类任务中,该模型最高推理速度可达每秒350个token。
其采用稀疏MoE架构,总参数规模为1960亿,但每个token仅激活约110亿参数,以“按需激活”的方式在维持能力的同时提升推理效率。
这类技术路径的意义在于,通过减少每次推理的有效计算量,提高单位算力的产出效率,从而为规模化部署释放成本空间,并提升在高并发、低延迟场景中的可用性与稳定性。
影响层面,模型侧的效率提升若能与芯片侧、系统侧形成联动,将进一步放大降本增效效应。
阶跃星辰表示,包括华为昇腾、沐曦股份、壁仞科技、燧原科技、天数智芯、阿里平头哥等多家芯片厂商已率先完成对Step 3.5 Flash的适配,通过底层联合创新提升模型适配性和算力效率。
对产业而言,这意味着从模型算子、编译优化、推理引擎到硬件特性的协同优化有望更深入,减少“模型好但跑不动”“能跑但成本高”的落地摩擦,推动更多行业场景进入可验证、可复制的应用阶段。
从对策路径看,推动大模型规模化应用,需要同时在“模型、芯片、平台、工具链”四个层面形成闭环:模型层面加强针对推理与Agent链路的结构设计和稳定性优化;芯片层面强化对稀疏计算、混合精度、内存与带宽调度等关键环节的适配;平台层面提供标准化部署与监控能力,降低企业工程投入;工具链层面完善评测体系与安全治理,提升可控性与可审计性。
公开信息显示,阶跃星辰于2025年7月联合近10家芯片及基础设施厂商发起“模芯生态创新联盟”,旨在打通芯片、模型与平台之间的技术壁垒,通过联合优化提升算力利用效率,加速大模型在各行业场景中的应用落地。
此类联盟机制的价值在于,协同定义接口与优化路径,缩短从发布到生产可用的周期,增强产业链整体的响应速度。
展望未来,随着推理模型与智能体应用成为主流方向,模算协同将从“可选项”逐步走向“必答题”。
一方面,企业对实时性、成本与稳定性的综合要求将持续抬升,倒逼模型与硬件更深层次的联合优化;另一方面,开源基座模型的持续供给,有助于扩大开发者与行业用户的创新空间,形成多场景、多行业的应用探索。
业内普遍认为,围绕推理效率的系统级协同,将成为大模型走向规模化应用的重要路径之一。
可以预期,谁能更快完成从模型到算力、从实验到生产的全链条打通,谁就更可能在新一轮产业落地中赢得先机。
大模型产业的发展正在进入新的阶段。
从追求参数规模和通用能力,到如今更加关注推理效率和应用成本,这种转变反映了产业的日趋成熟。
Step 3.5 Flash的发布和多家芯片厂商的快速适配,充分说明了模型与算力协同创新的重要性和紧迫性。
只有通过产业链上下游的紧密合作,才能真正打破技术壁垒,降低应用门槛,让大模型技术更好地服务于经济社会发展。
这种开放、协同的生态建设方式,也为我国大模型产业的健康发展指明了方向。