我国首张大模型高阶通用能力国标测试证书颁发人工智能评测体系迈入标准化新阶段

近期，大模型应用加速走向政务、通信、制造、金融等重点领域，市场对“能不能用、好不好用、是否安全可靠”的关注持续升温。

然而，长期以来，大模型高阶通用能力如何衡量、不同模型结果是否可比、评测过程是否可复现等问题缺乏统一规则，导致部分场景出现指标口径不一、测评标准分散、结果难以对齐等现象，既影响用户选型，也不利于产业形成稳定预期。

此次国内首张大模型高阶通用能力国家标准符合性测试证书的颁发，回应了行业痛点。

证书基于国家标准GB/T 45288.2-2025《人工智能第2部分：评测指标与方法》，在统一指标体系与方法框架下，对大模型高阶能力进行量化评估。

相关工作由中国电子技术标准化研究院组织实施，并于2025年9月启动“求索”大模型高阶通用能力测试，旨在推动评测从“各测各的”走向“按标可比”，为市场提供更清晰的技术坐标。

从能力维度看，高阶通用能力并非单一问答表现，而是面向产业核心需求的综合能力集合，重点覆盖复杂逻辑处理、代码应用实践、多模态交互等关键场景。

在评测框架设计上，测试构建了多维度能力矩阵：一是深度推理与复杂问题求解能力，涵盖数学推理、图表推理等；二是代码理解与生成能力，覆盖意图优化、多语言代码生成等实际开发需求；三是多模态理解与生成能力，涉及行为识别、视频问答、文本生成视频等前沿方向。

通过对上述能力的系统化测量，评测不仅关注“答得对不对”，更强调“推得清不清、做得成不成、跨模态能否协同”。

业内分析认为，评测标准化推进有其现实原因：一方面，大模型技术迭代快、应用边界扩展快，缺少统一评测易造成市场噪声，影响投资、采购和应用落地效率；另一方面，随着大模型从“展示性能力”走向“生产性能力”，对稳定性、泛化性、可解释性与可对比性的要求显著提升，标准化评测成为产业成熟的必经环节。

更重要的是，标准体系的建立有助于把技术竞争引导到可验证、可复现、可持续的方向，避免单纯依赖营销式“跑分”。

从影响看，证书的落地至少带来三方面积极效应。

其一，提升行业公信力。

统一方法和指标让不同模型在同一尺度上接受检验，有利于形成权威、可比的能力坐标。

其二，推动供需对接。

用户在采购与应用评估时将更易识别模型优势短板，降低试错成本，加速场景落地。

其三，促进技术攻关更聚焦。

标准化评测将复杂推理、代码与多模态等关键能力从“概念”变为“可测量目标”，为研发提供明确改进方向，也为监管与治理提供更可操作的工具基础。

在本次证书颁发中，中国电信自主研发的星辰语义大模型通过相关测试。

该模型强调依托国产算力与训练框架开展研制，并在国产万卡集群长稳训练等关键环节取得突破，相关训练资源利用率和训练效能表现突出。

其系列模型在多项公开基准评测中取得较好成绩，并以开源方式扩大社区使用与验证范围。

业内人士指出，基础模型能力的提升需要长期投入，尤其在数据治理、工程体系、算力调度与训练稳定性等方面，持续攻坚尤为关键；标准化评测的推进，将有助于把这些“看不见的工程能力”纳入可衡量、可比较的轨道。

下一步，如何让标准化评测真正发挥“指挥棒”作用，仍需在对策层面持续发力。

一是推动标准与场景深度结合，在通用能力评测之外，加强面向行业任务、关键风险点的专项评测，形成“通用+行业”的组合体系。

二是完善评测过程透明度与可复现机制，推动测试数据、流程规范、统计方法等环节更细化，增强结果的解释力与可追溯性。

三是强化生态协同，鼓励更多模型厂商、科研机构与用户单位参与标准验证与迭代，形成动态更新的评测体系，适应多模态与智能体等新形态发展。

四是与安全治理联动，将能力评测与安全、合规、可靠性评估协同推进，确保技术进步与风险防控同步。

展望未来，随着国家标准在评测环节持续落地，我国大模型产业有望在“同尺度竞争”中加快优胜劣汰，推动资源向高质量创新和真实应用集聚。

特别是在国产算力体系、开源生态和行业落地需求共同驱动下，标准化评测将进一步提升技术迭代效率，为大模型从实验室走向规模化应用构建更加稳定的制度与技术底座。

大模型高阶通用能力国家标准符合性测试体系的建立，体现了我国人工智能产业正在走向规范化、体系化发展的新阶段。

从"缺乏评测标准"到"建立国家标准"，从"企业各自为战"到"统一规范指引"，这一转变不仅是技术进步的体现，更是产业成熟的标志。

星辰语义大模型的成功认证，充分证明了国产大模型在核心技术和综合能力上的实力。

展望未来，随着评测标准体系的不断完善和推广应用，我国大模型产业必将在更加规范、更加透明的竞争环境中实现高质量发展，为建设人工智能强国贡献更大力量。

我国首张大模型高阶通用能力国标测试证书颁发 人工智能评测体系迈入标准化新阶段