高质量数据集共建计划在蓉启动 政企学研携手夯实大模型发展根基

当前,人工智能产业发展面临的核心瓶颈正从算力和算法向数据质量转变。作为大模型训练的"燃料与基石",高质量数据集建设与应用已成为产业竞争的关键环节;1月16日在成都举办的人工智能高质量数据集建设生态行首站活动,正是对此现实需求的直接回应。 数据质量决定模型能力。业界专家普遍认为,大模型的卓越性能源于优质数据的持续喂养。天津大学计算机科学与技术学院教授熊德意指出,大模型建设涉及大量数据、先进算法和充足算力的有机结合,但数据的"量"并不等同于数据的"质"。如何在海量信息中甄别和构建高质量数据集,已成为制约模型应用的重要瓶颈。工信部近期提出的"模数共振"理念,正是引导人工智能模型与高质量数据集实现协同创新、深度融合的战略思路。 成都具备承载这一使命的产业基础。作为国家七大数据标注基地之一,成都在数据资源管理、应用场景培育和产业生态建设上已形成相对完善的体系。四川省大数据发展研究会已凝聚288家会员单位,联动超过3900家生态数据企业,拥有超过3万名数据专业人才资源,初步构建了协同发展的良好生态。此次生态行落地成都,既是对区域数据要素发展实践的集中展示,也是探索可复制、可推广的数据赋能路径的重要尝试。 产学研协同成为推进的主要路径。本次活动中,中国信通院人工智能研究所、四川长虹、天津大学、海天瑞声、中国电信成都分公司等8家单位携手启动"四川数据标注和数据质量评估能力共建计划"。这一计划汇聚了研究机构的理论优势、企业的应用经验和高校的人才储备,形成了纵向贯通、横向协作的立体化推进格局。通过共建,各方将数据标注规范、质量评估体系、人才培养机制各上实现深度融合。 未来数据需求呈现多元化趋势。中国信通院人工智能研究所专家樊威预判,到2026年,四类数据集将迎来爆发式增长:一是世界模型数据,涵盖多种场景的大规模样本集;二是具身智能数据,包括真实机器人数据和仿真合成数据;三是智能体数据,需要与测试环境深度耦合的交互数据;四是行业模型数据。这意味着数据集建设需要采取"三措并举"的策略,包括建立数据工厂、完善体系建设、强化开发维护和确保合规可控。 数据要素价值释放成为产业升级的关键。中国人工智能产业发展联盟数据委员会主任李荪表示,高质量数据集从国家正式提出概念至今已有一年多时间,在各地各行业引起了强烈反响。当前的核心任务是让"沉淀在地下的黄金"变成"流动的黄金",通过生态行等系列活动极大推动数据要素价值的快速释放,加速人工智能的应用落地。

人工智能竞争正从技术突破转向基础能力建设。高质量数据集需要持续投入和多方协作。成都首站活动和共建计划的实施,展现了以数据支撑产业发展的思路。能否夯实数据质量该基础,将决定大模型应用的深度和产业转型的质量。