"数据工厂"崛起破解AI发展瓶颈 我国加速构建数据要素基础设施

问题——高质量数据供给不足制约模型能力跃升。

业内普遍认为,模型能力提升越来越依赖数据质量与结构化程度,但现实中可直接用于训练的高质量数据集稀缺,导致训练成本上升、迭代周期拉长,部分场景难以实现规模化落地。

特别是在行业应用中,数据往往沉淀在企业内部,形成“有数却难用、能用却不敢用”的矛盾,数据供给与模型需求之间缺口扩大。

原因——数据资源分散、治理成本高与安全合规约束叠加。

一方面,企业数据来源多、格式不一、质量参差,涉及采集、清洗、去重、脱敏、标注、版本管理等复杂环节,单靠个体机构难以形成稳定供给。

另一方面,数据跨主体流通面临隐私保护、商业秘密、合规审计与责任界定等现实约束,许多高价值“私域数据”难以充分开发。

加之数据资产化、标准化程度不高,导致数据难以像传统生产要素那样高效配置,进一步放大了供需错配。

影响——形成重复投入与效率损失,拖慢产业协同创新。

当前,一些数据持有方存在“不愿采、不会存、不善治、不敢用”等问题,数据沉睡造成资源浪费;而模型研发与应用企业为满足训练需求,不得不自建采集、治理和标注链条,重复“从源头打井”,投入高、周期长,且难以覆盖跨行业、跨区域的多样化数据需求。

这种格局不利于形成规模经济,也不利于产业链分工协作,最终影响技术突破与应用扩散速度。

对策——以“数据工厂”强化规模化生产能力,打通流通服务链条。

所谓“数据工厂”,并非传统意义上的制造车间,而是面向模型训练与智能应用,提供数据汇聚、治理加工、质量评估、合规管控与可交付数据集输出的专业化体系。

其核心价值在于把分散、原始的数据资源转化为可被算法直接吸收的“可用数据产品”,并通过标准、流程与工具沉淀,降低边际成本、提升供给稳定性。

从建设路径看,业内将其形态概括为集中式、半集中式与分布式三类:集中式强调统一采集、统一汇聚、统一加工,便于快速形成规模能力;半集中式强调以通用技术栈支撑不同场景平台建设,兼顾通用性与行业差异;分布式则更强调在不集中数据的前提下实现协同加工与可控使用,通过“数据可用不可见”等机制,回应数据持有者对安全与控制权的关切。

综合来看,短期内多种模式并行可满足不同区域、行业与主体需求;从趋势看,能够在安全合规前提下实现跨主体协作的分布式能力,有望成为重要方向。

政策层面也在加快制度与服务供给。

国家数据局、工业和信息化部、公安部、证监会近日联合发布《关于培育数据流通服务机构 加快推进数据要素市场化价值化的意见》,提出培育数据交易所(中心)、数据流通服务平台企业、数据商三类数据流通服务机构,并支持其加强与人工智能企业合作,依托数据基础设施提供数据汇聚、治理、模型训练等服务。

这意味着数据“生产—流通—应用”的专业化分工将进一步明晰,有助于推动供方与需求方高效匹配,提升数据要素配置效率。

前景——从“供粮”走向关键基础设施单元,释放数据要素乘数效应。

随着数据流通服务体系完善,“数据工厂”有望在更大范围内实现标准化生产与可信流通:一是推动高质量数据集持续供给,支撑模型训练与行业应用迭代;二是促进行业数据在合规框架内实现共享与协同,带动医疗、交通、制造、金融等领域形成可复制的智能化解决方案;三是加速数据资产化、产品化与服务化,推动数据要素市场化价值化落地。

与此同时,仍需同步完善数据标准体系、质量评价体系、合规审计与责任边界,强化关键环节安全能力建设,避免“重汇聚轻治理、重规模轻质量”等倾向,确保可持续发展。

"数据工厂"虽然没有传统工厂的机器轰鸣,但它"生产"出的数据洪流,正在以无声却深刻的方式重塑我们的时代。

从破解数据供需矛盾的微观层面,到推动数据要素市场化的宏观层面,"数据工厂"的建设和完善都承载着重要的战略意义。

随着国家政策的有力支持和市场主体的积极参与,我国数据基础设施建设正在加快推进,这将为人工智能产业的健康发展提供坚实的数据基础,也将为我国在新一轮科技竞争中抢占先机奠定重要基础。