“喂养”ai的那些数据也可能惹麻烦

听万立说，作为全国人大代表和中华全国律师协会副会长，他这几年一直盯着生成式人工智能的事儿看。今年政府工作报告里具体咋说AI发展了他也知道，虽说这东西能给各行各业帮大忙，但闹出来的法律和社会问题也不少。他特别提了一下2025年要干的事，就是去整治那些用AI造谣、搞乱网络环境的坏蛋。现在到了今年，他又琢磨起了版权这块的麻烦。现在最大的争论点就是，AI自己生成的东西算不算“作品”，要是算的话版权归谁。按绝大多数国家的规矩，“作品”必须是人写的、带脑子的创作。那些纯靠机器自动运行、完全没人插手的东西，因为没什么思想和个性，通常都不算著作权法里的“作品”。但也有不少是用户给了很具体的提示、选了东西、改了改、排了版才弄出来的，这时候生成的东西就体现了用户的想法和意图。如果硬说这不是智力成果，那以后谁还愿意这么费劲去创作啊？所以啊，关键得看里头有没有“人的独创性贡献”。用户给的提示词越有创意，调得越个性化，那就越该让用户来主张这个版权。希望以后法律上能把这条标准给捋顺了，政策也该把这层意思说清楚；开发者也别含糊，在合同里得白纸黑字把权利归属写明白。为了防以后扯皮，最好再把溯源技术用起来，像数字水印、元数据记录这些手段都用上。除了生成内容的性质和归属问题，“喂养”AI的那些数据也可能惹麻烦。现在的模型大多是用海量互联网数据练出来的，里面有好多受版权保护的作品。没经过许可就拿来训练算侵权吗？这在全世界都是个难题。从一个方面看，“非表达性使用”或者“转换性使用”这种情况确实存在；但从另一个方面看，搞大规模复制又会损了原作的市场价值。所以得在著作权法的框架下找个说法。现在的“合理使用”条款不太好用在这种训练场景上。不如试试那个“法定许可”加“报酬请求权”的路子——让开发者不用挨个去问版权人要授权就能用作品，但必须向著作权集体管理组织交钱，再让他们把钱分发给权利人。这样既让数据够用、促进产业发展，又保护了原作者的经济利益。