我国首张大模型高阶通用能力国标测试证书颁发 人工智能评测体系迈入标准化新阶段

近期,大模型应用加速走向政务、通信、制造、金融等重点领域,市场对“能不能用、好不好用、是否安全可靠”的关注持续升温。

然而,长期以来,大模型高阶通用能力如何衡量、不同模型结果是否可比、评测过程是否可复现等问题缺乏统一规则,导致部分场景出现指标口径不一、测评标准分散、结果难以对齐等现象,既影响用户选型,也不利于产业形成稳定预期。

此次国内首张大模型高阶通用能力国家标准符合性测试证书的颁发,回应了行业痛点。

证书基于国家标准GB/T 45288.2-2025《人工智能 第2部分:评测指标与方法》,在统一指标体系与方法框架下,对大模型高阶能力进行量化评估。

相关工作由中国电子技术标准化研究院组织实施,并于2025年9月启动“求索”大模型高阶通用能力测试,旨在推动评测从“各测各的”走向“按标可比”,为市场提供更清晰的技术坐标。

从能力维度看,高阶通用能力并非单一问答表现,而是面向产业核心需求的综合能力集合,重点覆盖复杂逻辑处理、代码应用实践、多模态交互等关键场景。

在评测框架设计上,测试构建了多维度能力矩阵:一是深度推理与复杂问题求解能力,涵盖数学推理、图表推理等;二是代码理解与生成能力,覆盖意图优化、多语言代码生成等实际开发需求;三是多模态理解与生成能力,涉及行为识别、视频问答、文本生成视频等前沿方向。

通过对上述能力的系统化测量,评测不仅关注“答得对不对”,更强调“推得清不清、做得成不成、跨模态能否协同”。

业内分析认为,评测标准化推进有其现实原因:一方面,大模型技术迭代快、应用边界扩展快,缺少统一评测易造成市场噪声,影响投资、采购和应用落地效率;另一方面,随着大模型从“展示性能力”走向“生产性能力”,对稳定性、泛化性、可解释性与可对比性的要求显著提升,标准化评测成为产业成熟的必经环节。

更重要的是,标准体系的建立有助于把技术竞争引导到可验证、可复现、可持续的方向,避免单纯依赖营销式“跑分”。

从影响看,证书的落地至少带来三方面积极效应。

其一,提升行业公信力。

统一方法和指标让不同模型在同一尺度上接受检验,有利于形成权威、可比的能力坐标。

其二,推动供需对接。

用户在采购与应用评估时将更易识别模型优势短板,降低试错成本,加速场景落地。

其三,促进技术攻关更聚焦。

标准化评测将复杂推理、代码与多模态等关键能力从“概念”变为“可测量目标”,为研发提供明确改进方向,也为监管与治理提供更可操作的工具基础。

在本次证书颁发中,中国电信自主研发的星辰语义大模型通过相关测试。

该模型强调依托国产算力与训练框架开展研制,并在国产万卡集群长稳训练等关键环节取得突破,相关训练资源利用率和训练效能表现突出。

其系列模型在多项公开基准评测中取得较好成绩,并以开源方式扩大社区使用与验证范围。

业内人士指出,基础模型能力的提升需要长期投入,尤其在数据治理、工程体系、算力调度与训练稳定性等方面,持续攻坚尤为关键;标准化评测的推进,将有助于把这些“看不见的工程能力”纳入可衡量、可比较的轨道。

下一步,如何让标准化评测真正发挥“指挥棒”作用,仍需在对策层面持续发力。

一是推动标准与场景深度结合,在通用能力评测之外,加强面向行业任务、关键风险点的专项评测,形成“通用+行业”的组合体系。

二是完善评测过程透明度与可复现机制,推动测试数据、流程规范、统计方法等环节更细化,增强结果的解释力与可追溯性。

三是强化生态协同,鼓励更多模型厂商、科研机构与用户单位参与标准验证与迭代,形成动态更新的评测体系,适应多模态与智能体等新形态发展。

四是与安全治理联动,将能力评测与安全、合规、可靠性评估协同推进,确保技术进步与风险防控同步。

展望未来,随着国家标准在评测环节持续落地,我国大模型产业有望在“同尺度竞争”中加快优胜劣汰,推动资源向高质量创新和真实应用集聚。

特别是在国产算力体系、开源生态和行业落地需求共同驱动下,标准化评测将进一步提升技术迭代效率,为大模型从实验室走向规模化应用构建更加稳定的制度与技术底座。

大模型高阶通用能力国家标准符合性测试体系的建立,体现了我国人工智能产业正在走向规范化、体系化发展的新阶段。

从"缺乏评测标准"到"建立国家标准",从"企业各自为战"到"统一规范指引",这一转变不仅是技术进步的体现,更是产业成熟的标志。

星辰语义大模型的成功认证,充分证明了国产大模型在核心技术和综合能力上的实力。

展望未来,随着评测标准体系的不断完善和推广应用,我国大模型产业必将在更加规范、更加透明的竞争环境中实现高质量发展,为建设人工智能强国贡献更大力量。