目前主流的大型语言模型普遍采用Transformer架构——虽然性能稳定——但在实际应用中存在响应延迟长、推理成本高等问题。尤其在语音交互、实时搜索等场景下,用户对响应速度的要求越来越高,传统的逐字符生成方式已难以满足需求。该现状正推动着新型架构的探索。
从Transformer主导到多技术路线并行发展,技术演进往往由需求和工程约束共同推动。Mercury 2采用扩散模型进入推理领域,反映了产业对"更快、更省、更实用"的追求。未来能在质量、效率、成本与安全之间找到最佳平衡点的技术方案,将更有可能在新一轮智能应用竞争中占据优势。