2024年的《商业内幕》报道了OpenAI和Anthropic等AI公司频繁抓取网站内容,使得被访问网站的服务器负载大幅增加,云计算成本也因此急升。2025年,Cloudflare开始的专项监测显示,部分头部AI平台每抓取100次内容,只能给原始网站带来1次访问回馈,Anthropic的抓取回流比在监测样本中最低。这是因为AI对数据的“饥渴”促使它们大幅扩大抓取范围和频率,且抓取目的从建立索引转向直接吸收知识,导致用户获取信息时不再需要访问原始网站。在这个过程中,原创内容网站既无法通过流量渠道获得合理回报,还要承担运营成本增加的压力,这可能会打击内容创作的积极性。 为了解决这个问题,清华大学互联网治理研究中心提出需要建立新型数字契约关系。这种契约应包括数据使用透明度、价值分配合理性和责任界定明确性三个核心要素。产业界建议借鉴数字广告领域的模式,建立适应AI时代的数据价值评估体系。部分互联网平台如Reddit已调整机器人访问协议来限制数据抓取行为。美联社等媒体机构也与科技公司达成了内容使用协议。 针对这一新兴挑战,欧盟在《人工智能法案》框架下探讨数据采集规范,美国多个州议会则要求AI公司披露训练数据来源并进行补偿。一些AI企业也在探索新合作模式,比如OpenAI推出的“网站流量合作计划”,承诺给参与知识库建设的优质内容网站导入流量。谷歌也尝试通过突出显示信息来源和强化原文链接来维护内容生态的可持续性。 虽然人工智能技术的突破为社会发展带来了新动能,但发展路径必须与互联网生态的可持续性相协调。只有在公平合理的价值交换基础上,人工智能的发展才能真正实现与互联网生态的共生共荣。