微软把一篇用于展示azure新功能的博客给撤下来了，原因是里面写着鼓励开发者盗版《哈利波特》来训练ai 模型

微软把一篇用于展示Azure新功能的博客给撤下来了，原因是里面写着鼓励开发者盗版《哈利波特》来训练AI模型。OpenAI的CEO Altman虽然承认没版权就没法做出ChatGPT这种级别的AI，但他说版权法没明确禁止他们这么做。这篇文章发在2024年11月，Hacker News上的人批评后很快就没了。之前Pooja Kamath在博客里提到过J.K. 罗琳的这七本书。微软想用这套大家都知道的书来演示怎么把AI加到应用里。不过他们把Kaggle上的一个数据集标错了，说这书是公共领域的。Ars Technica说这数据集只被下载了10,000次，显然不够热。后来媒体找到了Shubham Maindola，他说自己和微软没关系，是标错了标签才造成误会。现在搞生成式AI特别费钱，OpenAI这种大厂都在快速烧钱维持热度，投资者开始怕收不回本了。据估计ChatGPT的老板在2026年可能要亏掉140亿美元，明年年中之前还可能破产。除了钱的事儿，Google、OpenAI还有Anthropic都在抱怨高质量的训练数据不够用，拖慢了AI发展的步伐。大家都在纠结AI训练算不算侵权的事儿。主要是因为法律没说清科技公司能不能用别人受保护的材料来干活。很多公司都搬出合理使用的概念当挡箭牌，说自己的做法符合这原则的保护范围。