问题——大模型正加速走向产业深水区,如何衡量“能用、好用、可控”成为关键;随着人工智能从能力竞赛转向应用竞争,模型规模变大并不必然带来效率提升。不同模型推理成本、可靠性、可解释性、场景适配诸上差异明显,企业选型、部署和迭代中普遍遇到“指标不统一、结果不可比、效果难复现”等问题。建立权威、可复核、可持续迭代的测试评价体系,成为推动大模型从实验室走向业务闭环的基础工作。 原因——技术复杂度与应用广泛性叠加,推动评测从“单点”走向“全景”。一上,大模型能力呈多维特征:既包含基础属性与通用能力,也延伸到多模态理解、工具调用、智能体工作流、代码生成等新形态能力;另一方面,行业落地对安全合规、数据质量、业务规则、时效性和成本敏感度提出更高要求。传统以少量题库或单项指标为主的测评方式,难以覆盖真实业务链条对“稳定性—准确性—效率—风险”的综合要求,也难以为监管、采购与研发改进提供一致参考。 影响——评测“度量衡”一旦建立,将带动研发方向、产业协同与市场信心同步提升。据主办方介绍,中国信通院依托“方升”大模型测试体系持续迭代,已发展至3.0版本,形成基础属性(BOT)、通用能力(GOT)、应用能力(AOT)、行业能力(IOT)与未来智能(AIOT)在内的“五维一体”评估框架,并积累超过780万条测试数据,建立季度对外发布结果的常态化机制。该机制的意义不止于给出“分数”,更在于用公开、可对比的指标引导各方把资源投向提升可靠性、降低成本、优化工作流与增强场景适配等关键环节,推动供给侧从“堆参数”转向“强能力、重工程、讲效果”。 对策——以系统化研讨推动方法创新,以行业共建推进标准落地。本次“方升”智测研讨会由工业和信息化部重点实验室联合中国信通院人工智能研究所共同举办,将于2026年2月3日在北京举行。会议设置主研讨会,并以“1+6”结构组织面向通用智能、全模态与世界模型、智能体、代码能力、数据集质量、行业大模型等六个专项闭门研讨,重点围绕评测对象、工具与方法展开“拆解式”讨论:既关注评测工具链与自动化测试方法建设,也回应数据集质量、代码能力等基础环节对产业化成效的影响。同时,会议将推进建立覆盖金融、制造、教育等领域的“人工智能+行业”专属基准测试体系,通过共同定义任务、数据、指标与流程,形成更贴近业务的评价口径,减少“实验室高分、生产环境低效”的落差。 前景——以评测为牵引,产业将进入“可度量竞争、可验证交付、可持续迭代”的新阶段。业内普遍认为,2025年前后是大模型从快速扩张转向精细化运营的重要窗口期:企业更关注算力投入产出、部署可维护性与合规可控;行业更需要可复制的落地路径与可审计的效果证据。主办方披露,会议当天将发布《2025“方升”观察》,并邀请科研机构、高校与企业代表共同研判产业演进趋势、讨论评测方法边界与下一代体系方向;同时将启动第二批行业基准共建,深入扩大评测生态。随着更多可比、可复现的基准体系形成,模型能力与应用价值的衔接将更紧密,产业链上下游有望在共识指标下加速协同,推动技术走向规范化应用。
人工智能产业的健康发展离不开科学的评测体系。“方升”3.0体系的推出,标志着我国人工智能评测标准化、规范化上迈出重要一步。该体系不仅为产业提供可对照的“量尺”,也为评测生态建设打下基础。随着更多企业与机构参与共建,有望形成更开放、透明、规范的发展环境,促进技术创新与产业应用形成良性循环,加快人工智能从实验室走向千行百业。