Colapso do modelo de IA é inevitável, diz estudo

Por Luciano Rodrigues
Colapso do modelo de IA é inevitável, diz estudo - Imagem: Dall-E

Pesquisadores britânicos e canadenses, liderados por Ilia Shumailov de Oxford, publicaram um artigo na Nature, detalhando como os modelos de aprendizado de máquina atuais são vulneráveis a  síndrome do “colapso do modelo”, ao treinar repetidamente em dados gerados por ela mesma.

Eles explicam que aprender indiscriminadamente a partir de dados gerados por outros modelos leva a um processo degenerativo em que, com o tempo, os modelos esquecem a verdadeira distribuição de dados subjacente.

Os modelos de IA funcionam identificando padrões em seus dados de treinamento e correspondendo entradas a esses padrões. No entanto, tendem a gravitar em direção às saídas mais comuns.

Por exemplo, se você pedir a um gerador de imagens para criar a imagem de um cachorro, ele provavelmente apresentará um golden retriever, uma raça muito comum em seus dados de treinamento.

Com a web sendo inundada por conteúdo gerado por IA, os novos modelos de IA que treinam nesses dados tendem a ver uma proliferação de exemplos comuns, como os golden retrievers. Isso significa que, ao longo do tempo, esses modelos podem perder a capacidade de reconhecer a diversidade e se tornarem progressivamente menos precisos, até colapsarem.

Desafios e Soluções para Evitar o Colapso do Modelo

Os pesquisadores oferecem métodos de mitigação, mas consideram o colapso do modelo “inevitável” em teoria.

Isso porque a diversidade e a profundidade dos dados de treinamento são cruciais para a qualidade dos modelos e a falta de novos dados de alta qualidade pode limitar fundamentalmente o desenvolvimento da IA.

Para prevenir ou mitigar o problema, a resposta envolve medidas como benchmarks qualitativos e quantitativos de origem e variedade de dados.

Marcas d’água em dados gerados por IA poderiam ajudar, mas até agora, não há uma solução ideal.

Além disso, as empresas podem ser desincentivadas a compartilhar dados originais e valiosos, preferindo acumular esses recursos para manter uma vantagem competitiva.

O colapso do modelo deve ser levado a sério para sustentar os benefícios do treinamento a partir de dados em larga escala.

A capacidade de acessar dados genuínos e não contaminados será cada vez mais valiosa, especialmente à medida que o conteúdo gerado por IA prolifera.

Este estudo adiciona mais um item à lista de desafios potenciais para os modelos de IA e destaca a necessidade de estratégias robustas para garantir a viabilidade e a precisão contínuas desses sistemas avançados.

Compartilhe:
Siga:
Jornalista, assessor de comunicação, escritor e comunicador, com MBA em jornalismo digital e 12 anos de experiência, tendo passado também por alguns veículos no setor tech.
Sair da versão mobile