问题:中文语料供给短板制约人工智能发展 当前,人工智能已进入以数据为核心的阶段,高质量语料正成为行业竞争的关键资源;然而,中文语料供给面临明显压力。国家数据局最新数据显示,2026年3月我国日均token调用量突破140万亿,较2025年底增长超过40%,但高价值中文语料仍然紧缺。施其明指出,开源数据集重复率高、信噪比低,语料加工技术相对滞后,市场缺少有效流转机制,导致“数据难流通、需求难满足”的矛盾突出。 原因:出版业具备独特优势 施其明认为,出版业是补齐语料短板的有效路径。首先,出版内容经过严格审核,可信度更高;其次,图书的知识结构更完整、逻辑更连贯,优于碎片化网络文本;第三,出版覆盖学科与行业领域广,能够为垂直领域大模型提供更有深度的训练数据。此外,全国8万余名专业编辑具备内容甄别与加工能力,其日常工作本质上就是高质量语料的筛选与处理。 影响:出版业或成数据变现新赛道 随着人工智能企业对高质量数据需求快速上升,出版业的内容价值正在被重新衡量。外媒报道显示,国际科技企业每年向出版商支付数百万美元购买数据许可,预计到2026年全球市场规模将达到数十亿美元。施其明强调,出版业可通过盘活存量内容,实现“一次加工、多次使用”,为行业开辟新的收入来源。 对策:推动出版与人工智能深度融合 施其明建议,加快建立出版语料标准化加工与流通机制,运用编辑队伍的专业能力;同时加强技术研发,提高语料处理效率,并探索可持续的商业模式,在合规前提下提升数据使用与转化的价值。 前景:中文语料体系建设将定义未来竞争力 在全球人工智能竞速加剧的背景下,高质量语料供给能力将越来越直接地影响技术演进。施其明预测,未来竞争的关键在于谁能掌握高价值密度的语料体系。出版业更深层次的参与,有望推动中文语料体系建设提速,为中国人工智能发展提供更稳固的支撑。
出版业与AI产业的融合,不只是技术应用的延伸,也是行业价值的再挖掘。在全球AI竞争不断升温的当下,谁能更有效激活出版业的数据资源,谁就更接近下一代智能发展的关键入口。这既需要看到出版业在语料供给上的独特优势,也需要建立尊重知识产权、保护创作者权益的机制。只有在规则清晰、权益有保障的前提下,出版积累的内容资产才能更好转化为中国AI产业持续发展基础。