问题:高质量语料数据成AI发展关键瓶颈 当前,人工智能技术正向大模型、多模态和智能体方向快速演进,但高质量语料数据的短缺正成为制约行业发展的主要瓶颈;如何实现语料资源的普惠共享和高效利用,成为业界亟需解决的问题。 原因:行业竞争转向数据质量与规模 随着技术发展,人工智能产业的竞争重点已从算法优化转向数据质量。上海市经信委副主任潘焱表示,高质量语料数据是决定模型训练和应用落地的关键因素。然而,语料数据的采集、标注和处理成本较高,中小企业和科研机构往往难以承担,这一定程度上抑制了创新活力。 影响:语料资源推动多领域创新 上海通过"模塑申城"工程,在语料供给和平台建设上进展顺利。在科学智能领域,研究模式正从"文献驱动"转向"数据驱动",蛋白质科学等前沿领域尤其需要高精度语料支持。同时,国资国企丰富的业务场景为AI应用提供了实践环境,推动技术从单点突破向系统应用发展。 对策:政策与生态共同推进 为解决语料资源问题,上海采取多项措施:升级"模塑申城语料普惠计划"至2.0版本,为中小企业、高校和创业者提供高性价比的语料服务;启动2026国资国企AI场景征集,发掘可推广的行业应用案例;举办语料数据智能创意大赛,鼓励技术人才探索创新应用。此外,多家科研机构签署协议共建科学数据库,为AI4S(人工智能驱动科学)发展奠定基础。 前景:建设全球语料数据中心 根据规划,到2027年底,上海将连接500个创新主体,构建300个稀缺数据集,普惠语料价值预计超过1.5亿元。通过政策引导和市场协作,上海有望成为全球重要的语料数据枢纽,为人工智能产业发展提供持续动力。
语料对人工智能的重要性——犹如基础能源之于工业体系——既决定发展高度,也影响普及程度。将高质量语料建设成可持续、可共享的公共资源,既考验治理能力,也检验生态协同水平。上海以"让语料像水电一样便利"为目标推进制度建设和平台搭建,有助于将数据优势转化为创新和产业优势,为人工智能服务实体经济和科学发展提供更坚实的基础。