阶跃星辰搞出了个大动作,把step 3.5 flash的预训练权重、中训练权重、外加配套的steptron

今天,中国的一家大模型创业公司阶跃星辰搞出了个大动作。他们不光把Step 3.5 Flash这款开源模型给放出来了,还把里面的预训练权重、中训练权重,外加配套的Steptron训练框架都直接放到了网上。这一下把我都给惊到了,因为现在好多公司开源都挺保守的,阶跃星辰这次简直是把家底全掏出来了,在开源社区里掀起了不小的波澜。 听说Step 3.5 Flash用了一种叫稀疏MoE的架构,每个token只能用到大约110亿个参数,一共算下来也就是1960亿个。就光靠这点参数,它在单请求代码类任务上的速度特别快,最快能达到每秒处理350个token。在Agent场景和数学任务上,Step 3.5 Flash的表现已经非常接近那些闭源的模型了,能搞定那些特别复杂、需要多步推理的活儿。对于开发者来说,这是个很实在的选择。 我还特意去查了一下数据,这款模型现在在Hugging Face上下载了超30万次。就在3月2日那天,它的单日调用量更是超过了40亿次。在中国网友们喜欢用的那个叫OpenClaw的平台上(大家也叫它“小龙虾”),Step 3.5 Flash的调用量已经排到了第二位。 有意思的是,一直很低调的阶跃星辰研发团队这次居然亲自出来跟大家聊天。有个开发者问了一个特别专业的问题:你们是不是早就心里有了数,要把模型参数控制在89个token这个平衡点上?这样正好能卡在消费级硬件的128GB内存上限上。 面对这个问题,阶跃星辰的CTO朱亦博说团队确实有个明确的目标,就是要让模型能在128GB的系统里跑起来。他发现市面上差不多230亿参数规模的模型,用他自己那台MacBook Pro做4位量化都有点吃不消了,所以就逼着团队把模型规模给缩减了点。这种从开发者角度出发做产品的做法特别难得。 有个网友说得好:“从用户角度出发去做产品,而不是让用户去适应产品。”这正是大家感到兴奋的地方。 大家现在最关心的是基础模型能不能跟指令或思考模型一起发布出来好微调。阶跃星辰这次果然有求必应——今天他们直接把Step 3.5 Flash的预训练权重、中训练权重和Steptron框架全给开源了。希望通过这种更彻底的方式,让大家能以它为基础去做更深度的定制,打造出真正属于自己的Agent。