Pesquisadores britânicos e canadenses, liderados por Ilia Shumailov de Oxford, publicaram um artigo na Nature, detalhando como os modelos de aprendizado de máquina atuais são vulneráveis a síndrome do “colapso do modelo”, ao treinar repetidamente em dados gerados por ela mesma.
Eles explicam que aprender indiscriminadamente a partir de dados gerados por outros modelos leva a um processo degenerativo em que, com o tempo, os modelos esquecem a verdadeira distribuição de dados subjacente.
Os modelos de IA funcionam identificando padrões em seus dados de treinamento e correspondendo entradas a esses padrões. No entanto, tendem a gravitar em direção às saídas mais comuns.
Por exemplo, se você pedir a um gerador de imagens para criar a imagem de um cachorro, ele provavelmente apresentará um golden retriever, uma raça muito comum em seus dados de treinamento.
Com a web sendo inundada por conteúdo gerado por IA, os novos modelos de IA que treinam nesses dados tendem a ver uma proliferação de exemplos comuns, como os golden retrievers. Isso significa que, ao longo do tempo, esses modelos podem perder a capacidade de reconhecer a diversidade e se tornarem progressivamente menos precisos, até colapsarem.
- Leia também: Incrível! Fórmula Indy com carros dirigidos apenas por inteligência artificial bate recorde de velocidade
Desafios e Soluções para Evitar o Colapso do Modelo
Os pesquisadores oferecem métodos de mitigação, mas consideram o colapso do modelo “inevitável” em teoria.
Isso porque a diversidade e a profundidade dos dados de treinamento são cruciais para a qualidade dos modelos e a falta de novos dados de alta qualidade pode limitar fundamentalmente o desenvolvimento da IA.
Para prevenir ou mitigar o problema, a resposta envolve medidas como benchmarks qualitativos e quantitativos de origem e variedade de dados.
Marcas d’água em dados gerados por IA poderiam ajudar, mas até agora, não há uma solução ideal.
Além disso, as empresas podem ser desincentivadas a compartilhar dados originais e valiosos, preferindo acumular esses recursos para manter uma vantagem competitiva.
O colapso do modelo deve ser levado a sério para sustentar os benefícios do treinamento a partir de dados em larga escala.
A capacidade de acessar dados genuínos e não contaminados será cada vez mais valiosa, especialmente à medida que o conteúdo gerado por IA prolifera.
Este estudo adiciona mais um item à lista de desafios potenciais para os modelos de IA e destaca a necessidade de estratégias robustas para garantir a viabilidade e a precisão contínuas desses sistemas avançados.