前些天呢,莆田市就搞了个公共数据授权运营的项目,叫全域多模态城市治理数据集。这事儿其实是全国数标委在牵头的,他们还发布了《高质量数据集建设指南》等4项技术文件。说起这个高质量数据集,那可是AI发展的命根子,没有它就没法突破“数据墙”。 我们现在已经建了超过3.5万个高质量数据集,不过跟发达国家比起来,在总量和行业覆盖上还是有不小差距的。陆峰博士在给北京前沿未来科技产业发展研究院的课上说,现在最大的问题就是数据供给不足、技术工具薄弱,还有标准规范和安全合规的问题。 其实建设模式还挺多的,比如政府主导、龙头企业带动和生态共建这几种。技术路径方面呢,传统的是采集、治理、标注、质检这五步法,智能辅助标注则是预标注加人工校验再加模型迭代。最厉害的是数据合成增强模式,能破解关键样本稀缺的难题,比如用GAN生成缺陷样本。 应用场景上也有讲究,行业专识数据集就是面向特定行业定制的,跨领域合成数据集则是大规模多模态的合成图文数据。工程建设阶段也很关键,得系统获取高信噪比的原始数据,还要清洗对齐这些东西。 最后还得说说质量监测和流通运营。平台化运营就是行业高质量数据集平台提供一体化加工能力,市场化流通则是通过数据交易所来推动交易。整个流程下来能形成一个闭环反馈机制,“数据—数据集—模型—智能应用”这个飞轮就转起来了。 保障这方面也不能少啊,有标准规范体系还有合规安全这些事儿。四类核心主体协同也很重要,数据资源所有者、标注服务商、AI模型服务商、智能应用服务商都得配合好。人才体系建设也得跟上节奏。 这堂课讲得挺透彻的,是北京前沿未来科技产业发展研究院的院长陆峰博士讲的。