ai在抢数据这块儿闹得挺大动静,弄得大家觉得互联网好像不太平衡了。大家都在说,得赶紧建

这几年,AI在抢数据这块儿闹得挺大动静,弄得大家觉得互联网好像不太平衡了。大家都在说,得赶紧建个数字时代新规矩,大家一起好好干活。2024年的时候,Business Insider那边就爆料过,有的AI爬虫访问网站太频繁,把人家的服务器都给弄死机了。今年2025年开始,Cloudflare这家公司专门盯着这些情况看,算出来Anthropic和OpenAI这些平台的“抓取回流比”都挺吓人。比如Anthropic这家公司,光忙着爬网页抓信息,可回来的流量特别少,“高抓取低回流”的特征很明显。OpenAI那边情况也差不多。这么一来就造成了一个大问题:这些平台在拼命吃网站公开的“营养”,却没给别人回馈什么好处。 以前大家在互联网上协作搞内容的时候都有个不成文的规矩:用了人家的东西就带个路引着用户回去看看。现在这个良性循环好像被打破了。不光是这样,还有些网站的运营者觉得很吃亏,服务器经常被大量AI请求搞到超载,电费也跟着涨上去。其实不光是这两家公司有问题,2024年底的时候外媒调查也发现过类似的问题。造成现在这种局面的原因挺复杂的:首先大模型训练确实需要海量数据;然后现有的网络协议和法律管不到这种自动化的数据抓取;最后就是这些商业公司跟普通网站的老板根本没法好好沟通商量。 说白了,AI的发展离不开互联网数据的滋养,反过来互联网要是不好好运转也不行。现在这种数据抓了没回报的情况就是生产关系没跟上技术进步的典型例子。所以这事儿得大家一起想办法解决:怎么既能给AI提供数据又不欺负内容创作者?怎么建立一套透明公平的补偿规则?这就成了现在特别急着要解决的一个课题了。