高质量数据集共建计划在蓉启动政企学研携手夯实大模型发展根基

当前，人工智能产业发展面临的核心瓶颈正从算力和算法向数据质量转变。作为大模型训练的"燃料与基石"，高质量数据集建设与应用已成为产业竞争的关键环节；1月16日在成都举办的人工智能高质量数据集建设生态行首站活动，正是对此现实需求的直接回应。数据质量决定模型能力。业界专家普遍认为，大模型的卓越性能源于优质数据的持续喂养。天津大学计算机科学与技术学院教授熊德意指出，大模型建设涉及大量数据、先进算法和充足算力的有机结合，但数据的"量"并不等同于数据的"质"。如何在海量信息中甄别和构建高质量数据集，已成为制约模型应用的重要瓶颈。工信部近期提出的"模数共振"理念，正是引导人工智能模型与高质量数据集实现协同创新、深度融合的战略思路。成都具备承载这一使命的产业基础。作为国家七大数据标注基地之一，成都在数据资源管理、应用场景培育和产业生态建设上已形成相对完善的体系。四川省大数据发展研究会已凝聚288家会员单位，联动超过3900家生态数据企业，拥有超过3万名数据专业人才资源，初步构建了协同发展的良好生态。此次生态行落地成都，既是对区域数据要素发展实践的集中展示，也是探索可复制、可推广的数据赋能路径的重要尝试。产学研协同成为推进的主要路径。本次活动中，中国信通院人工智能研究所、四川长虹、天津大学、海天瑞声、中国电信成都分公司等8家单位携手启动"四川数据标注和数据质量评估能力共建计划"。这一计划汇聚了研究机构的理论优势、企业的应用经验和高校的人才储备，形成了纵向贯通、横向协作的立体化推进格局。通过共建，各方将数据标注规范、质量评估体系、人才培养机制各上实现深度融合。未来数据需求呈现多元化趋势。中国信通院人工智能研究所专家樊威预判，到2026年，四类数据集将迎来爆发式增长：一是世界模型数据，涵盖多种场景的大规模样本集；二是具身智能数据，包括真实机器人数据和仿真合成数据；三是智能体数据，需要与测试环境深度耦合的交互数据；四是行业模型数据。这意味着数据集建设需要采取"三措并举"的策略，包括建立数据工厂、完善体系建设、强化开发维护和确保合规可控。数据要素价值释放成为产业升级的关键。中国人工智能产业发展联盟数据委员会主任李荪表示，高质量数据集从国家正式提出概念至今已有一年多时间，在各地各行业引起了强烈反响。当前的核心任务是让"沉淀在地下的黄金"变成"流动的黄金"，通过生态行等系列活动极大推动数据要素价值的快速释放，加速人工智能的应用落地。

人工智能竞争正从技术突破转向基础能力建设。高质量数据集需要持续投入和多方协作。成都首站活动和共建计划的实施，展现了以数据支撑产业发展的思路。能否夯实数据质量该基础，将决定大模型应用的深度和产业转型的质量。

高质量数据集共建计划在蓉启动 政企学研携手夯实大模型发展根基

高质量数据集共建计划在蓉启动政企学研携手夯实大模型发展根基