Um grupo de autores entrou com uma ação coletiva contra a Anthropic, uma empresa de inteligência artificial, acusando-a de usar livros pirateados para treinar seus modelos de IA.
O processo, movido em um tribunal da Califórnia na última segunda-feira (19), alega que a Anthropic utilizou indevidamente obras protegidas por direitos autorais para desenvolver sua família de chatbots, conhecida como Claude.
De acordo com a ação, a Anthropic teria usado um amplo conjunto de dados de código aberto chamado “The Pile”, que inclui uma biblioteca de e-books pirateados conhecida como Books3.
Essa coleção supostamente contém obras de autores renomados, como Stephen King e Michael Pollan, entre milhares de outros.
Anthropic confirma que usou o The Pile, mas não se pronunciou sobre pirataria
A Anthropic, por sua vez, já confirmou à Vox que utilizou o The Pile para treinar seu chatbot Claude.
O processo alega que a Anthropic baixou e reproduziu cópias do The Pile e do Books3, consciente de que esses conjuntos de dados continham material protegido por direitos autorais, extraído de sites piratas como o Bibliotik.
Os autores que movem a ação coletiva estão pedindo que o tribunal obrigue a Anthropic a pagar danos e que proíba a empresa de usar material protegido por direitos autorais em futuros treinamentos de IA.
Entre os escritores que estão processando a Anthropic estão Andrea Bartz, autora de “We Were Never Here”; Charles Graeber, autor de “The Good Nurse”; e Kirk Wallace Johnson, que escreveu “The Feather Thief”.
Embora o processo reconheça que o Books3 foi removido da versão mais recente do The Pile, a versão original ainda estaria disponível online, o que continua a representar uma ameaça aos direitos autorais dos autores.
Esse processo é parte de um crescente movimento de autores contra o uso indevido de suas obras por empresas de tecnologia.
No ano passado, figuras como o ex-governador do Arkansas, Mike Huckabee, e outros escritores processaram empresas como Meta, Microsoft e EleutherAI, acusando-as de usar material protegido por direitos autorais para treinar seus modelos de IA.
A Anthropic ainda não se pronunciou sobre o processo, mas a ação pode ter repercussões significativas para a empresa e para outras que utilizam grandes volumes de dados disponíveis na internet para treinar sistemas de inteligência artificial.