人工智能技术研发领域近日传出新进展;1月20日,有开发者监测DeepSeek开源代码库时发现,最新更新的FlashMLA代码中出现了114处“MODEL1”标识符。技术人士在比对后认为,这个架构与现有“V32”模型在关键指标上存在明显差异,主要体现在键值缓存布局的优化、稀疏性处理方式的调整,以及对FP8数据格式的支持各上。业内分析认为,这些设计变化很可能针对大模型运行中的两大痛点:内存占用偏高、计算资源消耗偏大。尤其是键值缓存布局的改进,被认为可能提升模型在长序列任务中的处理效率;而对FP8的支持则体现出对硬件适配的考量,有望降低部署门槛与使用成本。
从开源代码中的新线索,到研究论文的持续发布,再到新模型的推出预期,DeepSeek近期动作显示出较为清晰的推进节奏;在全球AI竞赛加速的环境下,国内企业通过持续的架构优化与技术突破,正逐步缩小与国际先进水平的差距。V4的发布将是此进程的重要节点,其最终表现不仅关系到DeepSeek自身的发展,也可能对国内AI产业的技术生态带来更长远的影响。