上海发布2025金融大模型评测体系与基准以统一“能力标尺”促行业安全高质量应用

随着新一代信息技术深度融入金融服务各领域,大模型技术正成为推动行业数字化转型的核心驱动力。

然而,如何科学评估模型实际应用能力、防范技术风险,已成为制约金融智能化进程的关键瓶颈。

2025金融大模型评测体系发布会日前在上海举行。

会上,由上海人工智能实验室、库帕思联合同济大学、蚂蚁集团、中国工商银行、商汤科技等产学研机构共同推出的"2025金融大模型评测体系暨金融评测基准"正式亮相。

这是全国首个以金融业务为核心的大模型评价标准,填补了行业评测维度碎片化、缺乏统一规范的空白。

据了解,此次发布的评测体系在四个维度实现重大突破。

在标准引领方面,体系构建了覆盖银行、证券、保险等全金融场景的评测基线,改变了以往技术评估标准不一、难以横向比较的状况。

数据驱动层面,体系汇集约3.6万条高质量评测数据,包含4个公开数据集和22个自建专业数据集,确保评测结果贴近实战应用需求。

安全可信维度着重解决大模型应用中的合规性与风险防控问题,为金融机构提供可靠的技术保障。

生态共建则强调产学研深度协同,推动形成开放共享的创新环境。

市委金融办副主任葛平表示,该体系已成为金融机构进行技术选型与能力对标的重要依据。

通过建立统一评价标准,金融机构能够更加清晰地识别不同模型在投资研究、风险管控、客户服务等核心场景中的优势与不足,从而做出科学决策,避免盲目投入。

为增强评测的科学性与实用价值,发布会同步推出《金融大模型应用评测报告(2025)》与《金融大模型评测数据集(2025)》。

这套配套文件直面金融垂直领域的应用痛点,旨在帮助机构实现降本增效,加速技术在关键业务环节的规模化部署。

在技术实现路径上,该评测体系展现出较高的专业门槛。

库帕思首席运营官施佳樑介绍,为解决大模型评测中常见的数据泄露与结果随机性问题,体系创新采用循环选项打乱机制和多样化提示策略,并专门研发"金融裁判大模型",实现评测全流程自动化与标准化,显著提升结果的稳定性与准确度。

会上,与会专家围绕金融语料治理、模型安全监管等前沿议题展开深入研讨,强调产学研协同创新在构建可信智能生态中的关键作用。

专家指出,金融数据的敏感性决定了大模型应用必须建立严格的安全防护体系,评测标准的出台恰逢其时,将有力促进技术创新与风险管控的平衡发展。

从更宏观的视角看,此次评测体系的发布是上海深化"模塑申城"工程的重要举措。

作为国际金融中心与科技创新高地,上海正积极探索金融与科技融合发展的新路径。

通过建立权威评测标准,上海不仅为本地金融机构智能化转型提供技术支撑,更为全国金融科技规范发展树立标杆,彰显了在新兴技术治理领域的引领作用。

业内人士认为,评测体系的建立将产生多重积极效应。

对金融机构而言,统一标准降低了技术选型成本,提高了应用效率;对技术供应商而言,明确的评价导向有助于聚焦核心能力提升,推动产品迭代优化;对监管部门而言,标准化评测为风险识别与监管决策提供了量化依据,有利于构建更加健全的金融科技监管框架。

金融大模型评测体系的发布，不仅为行业智能化转型提供了"度量衡"，更彰显我国在金融科技标准制定领域的前瞻布局。

在数字经济加速发展的背景下，这种产学研协同的创新模式，将为构建安全、高效、开放的金融科技生态注入持久动力，助力我国在全球金融科技竞争中赢得更大话语权。

上海发布2025金融大模型评测体系与基准 以统一“能力标尺”促行业安全高质量应用