中国信通院启动"方升"3.0体系 构建人工智能产业评测新标准

问题:随着大模型能力快速跃升,产业界对“能不能用、好不好用、用得安不安全、成本划不划算”的关切持续上升。

现实中,不同模型在参数规模、训练数据、推理方式与部署形态上差异显著,单一指标难以覆盖真实应用需求;部分评测又存在口径不一、样本不可复现、场景脱离业务等问题,导致企业选型、行业监管、技术迭代缺乏统一参照。

如何建立科学、客观、可验证的评测“标尺”,已成为大模型从“能力竞赛”走向“工程交付”的关键基础设施。

原因:一方面,大模型正从通用对话走向多模态、智能体、代码生成与行业专用模型,能力边界扩展带来评测维度成倍增加;另一方面,应用侧从互联网场景向金融、制造、教育等专业领域延伸,对可靠性、合规性、可解释性、数据质量与推理成本提出更高要求。

与此同时,国际竞争推动评测基准加速更新,如果缺少持续迭代的本土化测试体系,产业容易陷入“看分数、难落地”“重演示、轻交付”的循环,影响资源配置效率和创新方向判断。

影响:在此背景下,中国信通院联合人工智能大模型及软硬件评测工业和信息化部重点实验室,将于2026年2月3日在北京举办“方升”智测研讨会,意在推动评测从零散工具走向系统工程。

中国信通院介绍,“方升”测试体系过去一年迭代至3.0版本,形成涵盖基础属性(BOT)、通用能力(GOT)、应用能力(AOT)、行业能力(IOT)及未来智能(AIOT)的“五维一体”框架,强调从单点技术验证转向面向产业赋能的全景评估。

据悉,依托该体系已积累超过780万条测试数据,并建立按季度对外发布结果的常态化监测机制,通过持续采集、统一口径与动态更新,提升评测的可比性与参考价值。

对产业而言,这类机制有助于在研发侧明确优化方向,在应用侧降低选型成本,在生态侧形成更透明的竞争规则。

对策:研讨会将以“1+6”结构推进交流,除主研讨外,设置面向AGI、全模态与世界模型、智能体、代码能力、数据集质量、行业大模型等六个专项闭门研讨,直指当前评测“难统一、难自动化、难贴近场景”的痛点。

会议将围绕新型评测工具链、自动化与智能化测试方法展开讨论,推动评测从“人工打分、阶段性测一次”向“可持续监测、可复现验证、可工程化接入”演进。

尤其在行业应用层面,会议计划启动并推动建立覆盖金融、制造、教育等多个领域的“人工智能+行业”专属基准测试体系,探索在行业数据口径、任务定义、风险约束与效果指标之间形成共识,构建科学、公平、开放的评测生态,使技术标准与业务需求更紧密衔接。

前景:从趋势看,2025年前后被业界视为大模型从快速扩张转入深耕落地的关键阶段,评测体系的完善将直接影响创新质量与产业效率。

未来一段时期,评测将更强调综合维度:既要衡量能力上限,也要评估稳定性、幻觉与安全风险、成本与能耗、部署可行性,以及在真实业务流程中的“端到端产出”。

“方升”体系提出的动态自适应测试思路,以及按季度发布的常态化机制,若能与行业基准共建形成闭环,有望为我国在大模型标准化、规模化应用与国际对标中提供更坚实的支撑。

会议方面透露,研讨会将邀请相关企业代表与高校专家参与交流,并将发布年度观察报告、开展前沿展望与共建启动仪式,以期在关键指标、评测方法与规范建设上形成更广泛共识。

人工智能技术的快速发展呼唤与之匹配的评测体系,中国信通院“方升”智测研讨会的召开,不仅是对技术标准化的积极探索,更是推动产业高质量发展的重要一步。

在产学研用各方的共同努力下,中国人工智能产业有望在全球竞争中占据更有利位置,为“人工智能+”时代的到来奠定坚实基础。