中国数据通信研究院院长余晓晖:高质量数据集建设给ai 发展带来的推动作用

2024年,给全球掀起了一股人工智能热潮,把数据给变成了人们争相抢夺的宝贝。可并非所有的数据都能推动AI发展,这就需要有高质量数据集。中国信息通信研究院院长余晓晖在一个论坛上说,全球有很多私域数据,把这些数据拿出来,能给高质量数据集提供重要方向。从国家发改委和国家数据局印发的《指导意见》就可以看出来,他们支持企业开发高质量数据集,还要大力发展数据服务和模型服务。 给高质量数据集明确定义之后,大家都意识到数据质量和数量都得兼顾。 比如 2024年12月发布的《指引》提到,随着大模型的参数不断增加和多模态能力的提升,数据需求从数量转向质量。 据中新网北京9月2日报道(记者 吴涛),截止到 2025年6月,全国各地建设了3.5万个高质量数据集,总量超过400PB。交易机构还挂牌了3364个高质量数据集,这个成为交易流通中的关键商品,累计交易额将近40亿元。 清华大学数字政府与治理研究院院长张小劲表示 ,“哪里有人工智能大模型发展到哪里”,这里面就包括高质量数据集建设给AI发展带来的推动作用。中国工程院院士吴世忠强调 ,“数据集建设质量和安全”是推动大模型发展的关键所在。 深圳市政务服务和数据管理局党组书记周剑明在国家数据局官网分享说 ,他们已经把公共数据资源授权运营和可信数据空间建设探索结合起来 ,“支持高质量公共数据和企业数据融合应用”,在征信金融、气象、商保理赔等领域开展试点取得了较好成效。 如今 ,高质量数据集已经如火如荼地开展起来了。北京9月2日这天中新网记者报道说 ,“高质量数据集成为数据流通中的硬通货”,所以“政府部门、行业和企业都在全力支持这项工作”。