人工智能高质量数据集炼金工坊生态行

我真搞不懂现在的人,连一个活动都能搞得这么复杂。大家都在说什么高质量数据集啊,那个中国人工智能产业发展联盟数据委员会,还有成都传媒产业集团旗下红星传媒,他们居然联合主办了“人工智能高质量数据集炼金工坊生态行”。1月16日就在成都高新区办的那个大会,把行业的目光都吸引到数据这块来了。 中国信息通信研究院和它的成渝分院、文心大模型数据生态中心、四川长虹、天津大学、海天瑞声、中国电信成都分公司、砺英数智这些单位凑一块儿,就发起了个“四川数据标注和数据质量评估能力共建计划”。目的是为了整合资源,弄出个标准化的东西来给大模型产业撑腰。 听说中国人工智能产业发展联盟数据委员会主任李荪说了,国家都提出高质量数据集的概念了,大家都得赶紧动起来。他说大家得把那些还藏在地下没被挖出来的“黄金”变成能流通的“流动黄金”,这个“炼金工坊”生态行就是要加速这个过程。 成都这地方本来就是国家重要的数字经济发展高地,选这里当首站肯定有道理。毕竟它在数据资源管理、应用场景和产业生态方面都积累了不少经验。 四川省大数据发展研究会副会长秦强子也介绍了四川在这块儿的情况。他们的研究会已经拢了三百多家会员单位,三千多生态企业还有数万名专业人才。他觉得“三赛一行”这些活动对促进要素流通挺有帮助。 天津大学的熊德意教授更是直言不讳地说,光有数据规模可不行,得弄出高质量的数据集才行。他觉得国家得赶紧搞系统化的建设才行。 还有中国信通院人工智能研究所的专家樊威也做了个预测,说等到了2026年,四类数据集的需求肯定会爆炸式增长。什么服务世界模型的多元场景数据、支撑具身智能的真实仿真数据、满足智能体训练的深度交互数据,还有驱动垂直行业优化的专业领域数据。 不过大家也都知道数据质量直接决定模型上限。你想想啊,你要是用了一堆垃圾数据去训练模型,结果能好到哪里去? 最近工业和信息化部还提了个“模数共振”的指导方向,就是为了让模型和数据集能够互相促进。 这次活动不仅仅是个启动仪式啊,更是一次凝聚共识、明确路径、开始合作的重要节点。以后只要大家齐心合力搞生态共建模式,“冶炼”高质量数据,肯定能把瓶颈给破了。 而且我觉得这次活动的成功也说明一个问题:要想让人工智能产业往高处走,非得把数据这块儿地基打牢不可!