陆峰：数据合成增强模式，能破解关键样本稀缺的难题

前些天呢，莆田市就搞了个公共数据授权运营的项目，叫全域多模态城市治理数据集。这事儿其实是全国数标委在牵头的，他们还发布了《高质量数据集建设指南》等4项技术文件。说起这个高质量数据集，那可是AI发展的命根子，没有它就没法突破“数据墙”。我们现在已经建了超过3.5万个高质量数据集，不过跟发达国家比起来，在总量和行业覆盖上还是有不小差距的。陆峰博士在给北京前沿未来科技产业发展研究院的课上说，现在最大的问题就是数据供给不足、技术工具薄弱，还有标准规范和安全合规的问题。其实建设模式还挺多的，比如政府主导、龙头企业带动和生态共建这几种。技术路径方面呢，传统的是采集、治理、标注、质检这五步法，智能辅助标注则是预标注加人工校验再加模型迭代。最厉害的是数据合成增强模式，能破解关键样本稀缺的难题，比如用GAN生成缺陷样本。应用场景上也有讲究，行业专识数据集就是面向特定行业定制的，跨领域合成数据集则是大规模多模态的合成图文数据。工程建设阶段也很关键，得系统获取高信噪比的原始数据，还要清洗对齐这些东西。最后还得说说质量监测和流通运营。平台化运营就是行业高质量数据集平台提供一体化加工能力，市场化流通则是通过数据交易所来推动交易。整个流程下来能形成一个闭环反馈机制，“数据—数据集—模型—智能应用”这个飞轮就转起来了。保障这方面也不能少啊，有标准规范体系还有合规安全这些事儿。四类核心主体协同也很重要，数据资源所有者、标注服务商、AI模型服务商、智能应用服务商都得配合好。人才体系建设也得跟上节奏。这堂课讲得挺透彻的，是北京前沿未来科技产业发展研究院的院长陆峰博士讲的。