Investigação aponta uso de livros pagos da O'Reilly no treinamento de IA da OpenAI

OpenAI pode ter usado livros pagos da O’Reilly sem licença.
Investigação revela indícios de uso indevido no GPT-4o.
Relatório aponta falhas éticas no treinamento da inteligência artificial.

Uma nova investigação reacendeu as críticas sobre a forma como a OpenAI obtém dados para treinar seus modelos de inteligência artificial.

O estudo analisou quase 14 mil trechos de livros da O’Reilly para verificar se os modelos da OpenAI reconheciam o conteúdo. Os resultados indicaram que o GPT-4o teve um desempenho significativamente superior ao identificar textos protegidos. Isso sugere acesso prévio ao material durante o treinamento do modelo.

Estudo da O’Reilly aponta acesso a conteúdo não licenciado

O AI Disclosures Project, organização sem fins lucrativos criada por Tim O’Reilly e Ilan Strauss, afirma que a OpenAI usou conteúdo exclusivo da O’Reilly para treinar o GPT-4o, seu modelo mais recente. O estudo analisou quase 14 mil trechos de 34 livros da editora e identificou padrões que indicam acesso direto ao conteúdo.

Segundo os autores, o GPT-4o apresentou um nível de reconhecimento muito superior em relação a trechos de livros pagos, quando comparado ao modelo anterior, o GPT-3.5 Turbo. Isso levanta a possibilidade de que a OpenAI tenha utilizado textos protegidos por direitos autorais, sem qualquer acordo de licenciamento.

O artigo usou o método DE-COP, criado em 2024, que permite detectar se um modelo de IA conhece previamente determinado conteúdo. A técnica testa a capacidade da IA de diferenciar textos originais de versões parafraseadas ou geradas artificialmente. Se o modelo acerta com frequência, isso sugere que ele teve contato com o material durante o treinamento.

Modelo mostra familiaridade com livros fechados

Os pesquisadores alertam que o reconhecimento de trechos de livros com acesso pago foi significativamente maior no GPT-4o. Isso mesmo depois de controlar variáveis como avanços técnicos no modelo. O estudo não prova com 100% de certeza o uso indevido, mas aponta uma forte correlação.

A OpenAI nunca firmou contrato com a O’Reilly Media para uso dos livros. A empresa também não comentou publicamente sobre o conteúdo do artigo até o momento. Mesmo assim, o histórico da companhia com dados protegidos por copyright levanta suspeitas recorrentes na comunidade técnica e no setor editorial.

O relatório destaca que, embora a OpenAI possua acordos com outras editoras e ofereça mecanismos de opt-out, ainda há brechas. É possível que parte dos trechos tenha vindo de usuários que colaram textos no ChatGPT. Mesmo assim, o volume e a precisão dos acertos sugerem algo mais amplo.

A investigação não analisou os modelos mais novos da OpenAI, como o GPT-4.5 ou os voltados para raciocínio avançado. Ainda assim, o foco no GPT-4o, que serve como padrão no ChatGPT atual, torna a acusação especialmente relevante.

Debate sobre ética no uso de dados continua

A disputa em torno do uso de dados protegidos por IA segue crescendo. Grandes empresas do setor buscam fontes cada vez mais refinadas para alimentar seus modelos, mesmo que isso signifique arriscar disputas legais.

A OpenAI já enfrenta processos nos Estados Unidos envolvendo o uso de obras com copyright. Ainda mais, a nova acusação pode intensificar a pressão sobre a empresa, que tenta se posicionar como referência em inovação e ética.

Investigação aponta uso de livros pagos da O’Reilly no treinamento de IA da OpenAI

Estudo da O’Reilly aponta acesso a conteúdo não licenciado

Modelo mostra familiaridade com livros fechados

Debate sobre ética no uso de dados continua

Mais Lidas

Estudo da O’Reilly aponta acesso a conteúdo não licenciado

Modelo mostra familiaridade com livros fechados

Debate sobre ética no uso de dados continua

Leia Também

Mais Lidas