2026中国网络媒体论坛聚焦语料底座建设：出版资源成中文智能应用关键支撑

问题：中文语料供给短板制约人工智能发展当前，人工智能已进入以数据为核心的阶段，高质量语料正成为行业竞争的关键资源；然而，中文语料供给面临明显压力。国家数据局最新数据显示，2026年3月我国日均token调用量突破140万亿，较2025年底增长超过40%，但高价值中文语料仍然紧缺。施其明指出，开源数据集重复率高、信噪比低，语料加工技术相对滞后，市场缺少有效流转机制，导致“数据难流通、需求难满足”的矛盾突出。原因：出版业具备独特优势施其明认为，出版业是补齐语料短板的有效路径。首先，出版内容经过严格审核，可信度更高；其次，图书的知识结构更完整、逻辑更连贯，优于碎片化网络文本；第三，出版覆盖学科与行业领域广，能够为垂直领域大模型提供更有深度的训练数据。此外，全国8万余名专业编辑具备内容甄别与加工能力，其日常工作本质上就是高质量语料的筛选与处理。影响：出版业或成数据变现新赛道随着人工智能企业对高质量数据需求快速上升，出版业的内容价值正在被重新衡量。外媒报道显示，国际科技企业每年向出版商支付数百万美元购买数据许可，预计到2026年全球市场规模将达到数十亿美元。施其明强调，出版业可通过盘活存量内容，实现“一次加工、多次使用”，为行业开辟新的收入来源。对策：推动出版与人工智能深度融合施其明建议，加快建立出版语料标准化加工与流通机制，运用编辑队伍的专业能力；同时加强技术研发，提高语料处理效率，并探索可持续的商业模式，在合规前提下提升数据使用与转化的价值。前景：中文语料体系建设将定义未来竞争力在全球人工智能竞速加剧的背景下，高质量语料供给能力将越来越直接地影响技术演进。施其明预测，未来竞争的关键在于谁能掌握高价值密度的语料体系。出版业更深层次的参与，有望推动中文语料体系建设提速，为中国人工智能发展提供更稳固的支撑。

出版业与AI产业的融合，不只是技术应用的延伸，也是行业价值的再挖掘。在全球AI竞争不断升温的当下，谁能更有效激活出版业的数据资源，谁就更接近下一代智能发展的关键入口。这既需要看到出版业在语料供给上的独特优势，也需要建立尊重知识产权、保护创作者权益的机制。只有在规则清晰、权益有保障的前提下，出版积累的内容资产才能更好转化为中国AI产业持续发展基础。