问题:大模型和智能化应用加速落地,产业对高质量数据的需求急剧增长;与算力和算法不同,数据特点是明显的行业差异和场景依赖性。一方面,真实可用、合规流通的数据获取成本高、周期长;另一方面,关键行业普遍存"数据孤岛""口径不统一""难以验证""难以交易"等问题,导致模型训练和应用落地面临"缺数据、缺好数据、缺可持续更新数据"的困境。如何通过制度创新和资金激励引导企业补齐数据短板,成为推进产业智能化的关键。 原因:从技术角度看,高质量数据集不仅是模型训练的基础,更决定了模型能否从通用能力升级为行业专用能力,进而在制造、医疗、交通等实体经济领域产生实际价值。然而,建设高质量数据集需要长期投入:采集、标注、质控、脱敏、治理、版本管理和安全审查等环节缺一不可,同时还要兼顾隐私保护、知识产权、合规审计和可追溯管理。特别是在具身智能、自动驾驶等对真实数据高度依赖的领域,数据采集需要设备、场地和复杂工况支撑,投入大、迭代快,单靠市场力量容易导致供给不足和重复建设。基于该认识,北京亦庄推出"数据20条"并组织首次集中兑现,通过场景牵引和政策撬动,建立可持续的数据投入机制和清晰的收益预期。 影响:此次集中兑现覆盖20家企业38个数据集,聚焦具身智能、生物医药、工业制造、智能网联等重点领域,反映了"补空白、立标杆、促转化"。在具身智能领域,企业推出双足人形机器人开源数据集,填补国内公开数据空白,支撑跨本体具身模型训练和开源生态建设;也有企业针对开放场景形成真机数据集,推动真实环境数据共享和行业对标。在生物医药领域,数据集建设探索"专家诊断意见+质控流程+临床信息关联"的组织方式,通过规范登记增强数据资产属性,提升数据可用性和合规性;面向真实世界证据的医药融合数据集有助于提高数据结构化程度和监管可解释性,为企业研发提供支撑。在工业制造领域,覆盖"非标+标准件"全流程柔性制造的数据集强化了合规性和闭环训练能力,为智能制造从试点走向规模化奠定基础;钢铁行业全产业链数据平台的构建有助于提升生产协同效率、降低能耗,体现了数据要素对传统产业的直接价值。在智能网联领域,围绕复杂交通场景构建的自动驾驶数据集通过"4D时空+自动化闭环"等方式提升数据生产效率和场景覆盖,缓解高级别自动驾驶研发的"数据荒",也为技术路线演进提供训练基础。 对策:政策奖励如何转化为产业动能,关键在于从"一次性兑现"转向"持续性供给"。从企业反馈看,资金将更多投向研发升级、场景扩展和生态共建:具身智能企业计划扩大真实场景数据规模,提升机器人在真实环境中的泛化能力和落地可靠性;医疗企业将推动数据开放上架和对应的模型研发,形成可复用的基础资源,带动医药健康和医疗智能化应用发展;制造企业计划将"数据集成果"升级为"数据能力供给",把数据治理、合规流通和接口化能力转化为通用产品,探索受控开放、联合验证和场景共建,推动数据在产业链协同中"能流动、流得动、流得安全"。对政府而言,下一步可在标准体系、合规指引、交易规则、质量评价和安全治理上持续完善,推动数据从"可用资源"向"可交易资产、可复用能力"转变,减少重复采集和低水平标注,提升供给效率。 前景:当前,围绕数据要素的竞争正在从"数量供给"转向"质量供给、合规供给、持续供给"。北京亦庄通过政策集中兑现引导企业投入关键领域"补短板"和"立标杆",有望形成可复制的产业机制:一是以重点场景牵引数据建设,推动技术路线与产业需求更紧密对接;二是以合规与质量为抓手提升数据可交易性,促进数据资产化和规模化流通;三是以开源与生态协同扩大外溢效应,带动上下游企业共同提升数据生产和应用能力。随着更多高质量数据集进入供给体系,叠加算力和算法进步,智能化应用有望在机器人、医疗、制造、交通等领域实现从示范到规模的跃迁。
从数据荒到数据富矿,北京亦庄的实践证明了精准政策对科技创新的关键作用。当高质量数据成为像水电一样的基础设施,人工智能与实体经济的深度融合便有了更坚实的基础。这场始于数据、兴于产业、成于生态的变革,正在重新定义未来城市的核心竞争力。