微软研究院联合高校提出极低位量化与稀疏协同路径 让大模型更小更快迈出关键一步

(问题)近年来,语言大模型能力不断增强,但规模也随之变大,带来存储占用、能耗和推理时延等现实压力;一方面,算力与用电成本上升,企业大规模部署的门槛更高;另一方面,端侧与边缘设备受带宽、功耗和内存限制,难以承载高参数量模型。如何尽量不损失效果的前提下做到“更小体积、更快推理、更低成本”,已成为产业落地的关键问题。 (原因)目前业内主要采用两条压缩与加速路线:一是量化,通过降低参数精度减少内存和带宽需求;二是稀疏化(剪枝),通过移除不必要的连接降低实际计算量。长期以来,两类方法多在各自体系内推进:量化强调“降低位宽”,稀疏化强调“减少非零参数”。但低精度会改变权重分布并影响训练稳定性,稀疏化又依赖对“可删部分”的准确判断,两者叠加往往带来效果波动、训练更难以及硬件适配不一致等问题,协同收益并不会自动出现。 (影响)联合团队在2026年3月5日发布于arXiv的论文(编号arXiv:2603.05168v1)对这种协同关系给出系统解释。研究聚焦1.58位超低比特量化:模型参数只取-1、0、+1三种离散值。在该设定下,研究人员观察到量化后的权重分布出现明显“零值聚集”,约42%的参数自然落在0上。这意味着在极低位宽表示下,部分连接会在数值上自动弱化并归零,为后续按规则实施半结构化稀疏(如按块或按比例的规律稀疏)提供了更清晰的操作空间。 研究深入指出,与全精度或更高位宽量化模型相比,在相同稀疏率约束下,1.58位量化模型的性能退化更可控,表现出更强的“可稀疏化”特征。其意义在于:超低比特量化不只是压缩存储,还可能在分布层面为稀疏化提前“对齐”,让稀疏模式更稳定,训练与微调更容易收敛。对端侧推理和大规模服务部署而言,“先量化—再稀疏”的组合有望同时降低存储带宽需求与有效乘加计算量,并在支持稀疏计算的硬件上带来更真实的加速。据论文披露,在特定硬件环境中,该组合最高实现约1.3倍速度提升。 (对策)从工程落地看,研究给出三点方向:一是把超低比特量化与半结构化稀疏放到同一训练或微调流程中,减少后处理式压缩带来的不稳定;二是围绕“规律稀疏”制定策略,优先选择更容易被硬件识别并加速的稀疏模式,缩小“看起来稀疏但跑不快”的差距;三是加强软硬件协同,在编译器、算子库与推理框架层面优化数据布局与内存访问,让零值比例提升真正转化为吞吐收益,而不止停留在参数统计上。 (前景)业内分析认为,随着大模型走向多场景部署,单纯依靠增加算力供给难以长期覆盖成本与能耗约束,围绕“更低位宽表示、更高稀疏度结构、更强硬件匹配”的系统优化将成为重要趋势。如果超低比特量化与半结构化稀疏的协同能在更多模型架构、任务类型和硬件平台上被验证,并沉淀为可复用的训练配方与工具链,有望推动大模型从数据中心进一步延伸到端侧、边缘和行业专用设备,扩大智能化应用的覆盖面。同时也需看到,极低位宽表示对训练稳定性、误差累积和任务鲁棒性提出更高要求,有关方法仍需在安全性、可解释性与跨场景泛化能力上持续完善。

人工智能的进步不仅体现在更强的性能,也体现在更高的效率与更广的可用性;此次研究展示了量化与稀疏化协同带来的工程价值,也提示行业:在大模型落地过程中,很多难题需要跨方法、跨软硬件体系一起解决。随着验证范围扩大和工具链成熟,人工智能有望以更低成本、更高效率进入更多真实场景,服务社会与产业发展。