微软研究院联合高校提出极低位量化与稀疏协同路径让大模型更小更快迈出关键一步

（问题）近年来，语言大模型能力不断增强，但规模也随之变大，带来存储占用、能耗和推理时延等现实压力；一方面，算力与用电成本上升，企业大规模部署的门槛更高；另一方面，端侧与边缘设备受带宽、功耗和内存限制，难以承载高参数量模型。如何尽量不损失效果的前提下做到“更小体积、更快推理、更低成本”，已成为产业落地的关键问题。（原因）目前业内主要采用两条压缩与加速路线：一是量化，通过降低参数精度减少内存和带宽需求；二是稀疏化（剪枝），通过移除不必要的连接降低实际计算量。长期以来，两类方法多在各自体系内推进：量化强调“降低位宽”，稀疏化强调“减少非零参数”。但低精度会改变权重分布并影响训练稳定性，稀疏化又依赖对“可删部分”的准确判断，两者叠加往往带来效果波动、训练更难以及硬件适配不一致等问题，协同收益并不会自动出现。（影响）联合团队在2026年3月5日发布于arXiv的论文（编号arXiv:2603.05168v1）对这种协同关系给出系统解释。研究聚焦1.58位超低比特量化：模型参数只取-1、0、+1三种离散值。在该设定下，研究人员观察到量化后的权重分布出现明显“零值聚集”，约42%的参数自然落在0上。这意味着在极低位宽表示下，部分连接会在数值上自动弱化并归零，为后续按规则实施半结构化稀疏（如按块或按比例的规律稀疏）提供了更清晰的操作空间。研究深入指出，与全精度或更高位宽量化模型相比，在相同稀疏率约束下，1.58位量化模型的性能退化更可控，表现出更强的“可稀疏化”特征。其意义在于：超低比特量化不只是压缩存储，还可能在分布层面为稀疏化提前“对齐”，让稀疏模式更稳定，训练与微调更容易收敛。对端侧推理和大规模服务部署而言，“先量化—再稀疏”的组合有望同时降低存储带宽需求与有效乘加计算量，并在支持稀疏计算的硬件上带来更真实的加速。据论文披露，在特定硬件环境中，该组合最高实现约1.3倍速度提升。（对策）从工程落地看，研究给出三点方向：一是把超低比特量化与半结构化稀疏放到同一训练或微调流程中，减少后处理式压缩带来的不稳定；二是围绕“规律稀疏”制定策略，优先选择更容易被硬件识别并加速的稀疏模式，缩小“看起来稀疏但跑不快”的差距；三是加强软硬件协同，在编译器、算子库与推理框架层面优化数据布局与内存访问，让零值比例提升真正转化为吞吐收益，而不止停留在参数统计上。（前景）业内分析认为，随着大模型走向多场景部署，单纯依靠增加算力供给难以长期覆盖成本与能耗约束，围绕“更低位宽表示、更高稀疏度结构、更强硬件匹配”的系统优化将成为重要趋势。如果超低比特量化与半结构化稀疏的协同能在更多模型架构、任务类型和硬件平台上被验证，并沉淀为可复用的训练配方与工具链，有望推动大模型从数据中心进一步延伸到端侧、边缘和行业专用设备，扩大智能化应用的覆盖面。同时也需看到，极低位宽表示对训练稳定性、误差累积和任务鲁棒性提出更高要求，有关方法仍需在安全性、可解释性与跨场景泛化能力上持续完善。

人工智能的进步不仅体现在更强的性能，也体现在更高的效率与更广的可用性；此次研究展示了量化与稀疏化协同带来的工程价值，也提示行业：在大模型落地过程中，很多难题需要跨方法、跨软硬件体系一起解决。随着验证范围扩大和工具链成熟，人工智能有望以更低成本、更高效率进入更多真实场景，服务社会与产业发展。

微软研究院联合高校提出极低位量化与稀疏协同路径 让大模型更小更快迈出关键一步

微软研究院联合高校提出极低位量化与稀疏协同路径让大模型更小更快迈出关键一步