Back to Feed
总结
多名图书作者在美国起诉英伟达其大模型训练数据涉嫌侵权。原告上周五修改诉状称,英伟达为训练NeMo、Retro-48B等模型,员工主动联系影子图书馆“安娜的档案”了解并购买付费“高速访问”,在管理层内部批准后一周获准,随后获得约500TB盗版电子书的高速下载权限。诉状还指其从LibGen、Sci-Hub、Z-Library等网站下载书籍。争议聚焦训练数据来源与版权合规,可能带来赔偿与监管压力。
正文
英伟达除了供应 AI 芯片外,还开发了自己的大模型,如 NeMo、Retro-48B、InstructRetro 和 Megatron。那么这些大模型的训练数据来自何处?图书作者指控英伟达使用盗版书库训练模型。上周五原告修改了诉状,指控英伟达使用了影子图书馆"安娜的档案(Anna's Archive)"收集的盗版电子书库。诉状援引英伟达内部邮件和文件称,英伟达员工主动联系"安娜的档案",询问该影子图书馆提供的付费"高速访问"是什么意思。安娜的档案要求英伟达管理层内部批准之后它才会提供该服务。英伟达据报道在一周内批准了这一要求,安娜的档案随后提供了 500 TB 电子书的高速访问。英伟达还被控从 LibGen、Sci-Hub 和 Z-Library 下载书籍。
发布时间: