"数据工厂"崛起破解AI发展瓶颈我国加速构建数据要素基础设施

问题——高质量数据供给不足制约模型能力跃升。

业内普遍认为，模型能力提升越来越依赖数据质量与结构化程度，但现实中可直接用于训练的高质量数据集稀缺，导致训练成本上升、迭代周期拉长，部分场景难以实现规模化落地。

特别是在行业应用中，数据往往沉淀在企业内部，形成“有数却难用、能用却不敢用”的矛盾，数据供给与模型需求之间缺口扩大。

原因——数据资源分散、治理成本高与安全合规约束叠加。

一方面，企业数据来源多、格式不一、质量参差，涉及采集、清洗、去重、脱敏、标注、版本管理等复杂环节，单靠个体机构难以形成稳定供给。

另一方面，数据跨主体流通面临隐私保护、商业秘密、合规审计与责任界定等现实约束，许多高价值“私域数据”难以充分开发。

加之数据资产化、标准化程度不高，导致数据难以像传统生产要素那样高效配置，进一步放大了供需错配。

影响——形成重复投入与效率损失，拖慢产业协同创新。

当前，一些数据持有方存在“不愿采、不会存、不善治、不敢用”等问题，数据沉睡造成资源浪费；而模型研发与应用企业为满足训练需求，不得不自建采集、治理和标注链条，重复“从源头打井”，投入高、周期长，且难以覆盖跨行业、跨区域的多样化数据需求。

这种格局不利于形成规模经济，也不利于产业链分工协作，最终影响技术突破与应用扩散速度。

对策——以“数据工厂”强化规模化生产能力，打通流通服务链条。

所谓“数据工厂”，并非传统意义上的制造车间，而是面向模型训练与智能应用，提供数据汇聚、治理加工、质量评估、合规管控与可交付数据集输出的专业化体系。

其核心价值在于把分散、原始的数据资源转化为可被算法直接吸收的“可用数据产品”，并通过标准、流程与工具沉淀，降低边际成本、提升供给稳定性。

从建设路径看，业内将其形态概括为集中式、半集中式与分布式三类：集中式强调统一采集、统一汇聚、统一加工，便于快速形成规模能力；半集中式强调以通用技术栈支撑不同场景平台建设，兼顾通用性与行业差异；分布式则更强调在不集中数据的前提下实现协同加工与可控使用，通过“数据可用不可见”等机制，回应数据持有者对安全与控制权的关切。

综合来看，短期内多种模式并行可满足不同区域、行业与主体需求；从趋势看，能够在安全合规前提下实现跨主体协作的分布式能力，有望成为重要方向。

政策层面也在加快制度与服务供给。

国家数据局、工业和信息化部、公安部、证监会近日联合发布《关于培育数据流通服务机构加快推进数据要素市场化价值化的意见》，提出培育数据交易所（中心）、数据流通服务平台企业、数据商三类数据流通服务机构，并支持其加强与人工智能企业合作，依托数据基础设施提供数据汇聚、治理、模型训练等服务。

这意味着数据“生产—流通—应用”的专业化分工将进一步明晰，有助于推动供方与需求方高效匹配，提升数据要素配置效率。

前景——从“供粮”走向关键基础设施单元，释放数据要素乘数效应。

随着数据流通服务体系完善，“数据工厂”有望在更大范围内实现标准化生产与可信流通：一是推动高质量数据集持续供给，支撑模型训练与行业应用迭代；二是促进行业数据在合规框架内实现共享与协同，带动医疗、交通、制造、金融等领域形成可复制的智能化解决方案；三是加速数据资产化、产品化与服务化，推动数据要素市场化价值化落地。

与此同时，仍需同步完善数据标准体系、质量评价体系、合规审计与责任边界，强化关键环节安全能力建设，避免“重汇聚轻治理、重规模轻质量”等倾向，确保可持续发展。

"数据工厂"虽然没有传统工厂的机器轰鸣，但它"生产"出的数据洪流，正在以无声却深刻的方式重塑我们的时代。

从破解数据供需矛盾的微观层面，到推动数据要素市场化的宏观层面，"数据工厂"的建设和完善都承载着重要的战略意义。

随着国家政策的有力支持和市场主体的积极参与，我国数据基础设施建设正在加快推进，这将为人工智能产业的健康发展提供坚实的数据基础，也将为我国在新一轮科技竞争中抢占先机奠定重要基础。

"数据工厂"崛起破解AI发展瓶颈 我国加速构建数据要素基础设施

"数据工厂"崛起破解AI发展瓶颈我国加速构建数据要素基础设施