微软把一篇用于展示Azure新功能的博客给撤下来了,原因是里面写着鼓励开发者盗版《哈利波特》来训练AI模型。OpenAI的CEO Altman虽然承认没版权就没法做出ChatGPT这种级别的AI,但他说版权法没明确禁止他们这么做。这篇文章发在2024年11月,Hacker News上的人批评后很快就没了。之前Pooja Kamath在博客里提到过J.K. 罗琳的这七本书。 微软想用这套大家都知道的书来演示怎么把AI加到应用里。不过他们把Kaggle上的一个数据集标错了,说这书是公共领域的。Ars Technica说这数据集只被下载了10,000次,显然不够热。后来媒体找到了Shubham Maindola,他说自己和微软没关系,是标错了标签才造成误会。 现在搞生成式AI特别费钱,OpenAI这种大厂都在快速烧钱维持热度,投资者开始怕收不回本了。据估计ChatGPT的老板在2026年可能要亏掉140亿美元,明年年中之前还可能破产。除了钱的事儿,Google、OpenAI还有Anthropic都在抱怨高质量的训练数据不够用,拖慢了AI发展的步伐。 大家都在纠结AI训练算不算侵权的事儿。主要是因为法律没说清科技公司能不能用别人受保护的材料来干活。很多公司都搬出合理使用的概念当挡箭牌,说自己的做法符合这原则的保护范围。