Em um avanço revolucionário para o campo da inteligência artificial (IA), a Nvidia apresentou uma solução inovadora que promete transformar a forma como as IAs são treinadas.
Com o novo algoritmo Nemotron-4 340B, a Nvidia propõe o uso de dados sintéticos, gerados por IAs, para o desenvolvimento e treinamento de outras inteligências artificiais. Essa técnica pode ser a chave para superar a limitação atual de depender de dados reais copiados da internet, muitas vezes sem autorização.
Os algoritmos de IA atuais, como modelos de linguagem (ChatGPT, Gemini), geradores de imagens (Dall-E, Stable Diffusion, Midjourney) e vídeos (Sora, Runway), são alimentados por vastas quantidades de dados retirados da web.
Há uma correlação direta entre a quantidade de dados analisados por uma IA e seu nível de sofisticação. No entanto, a obtenção contínua de novos dados apresenta desafios legais e éticos, além de limitações práticas. Como resultado, a indústria de IA busca alternativas viáveis para continuar avançando.
A Nvidia aposta nos dados sintéticos como uma solução promissora. O Nemotron-4 340B é capaz de gerar um novo conjunto de dados a partir da análise de informações existentes. Esses dados sintéticos podem então ser utilizados para treinar outras IAs, potencialmente acelerando o desenvolvimento de algoritmos mais avançados sem as restrições dos dados reais.
- Leia também: Com cinco anos de atraso, Google Maps finalmente lança velocímetro e limites de velocidade no iOS
Inteligência artificial
No entanto, o uso de dados sintéticos não é isento de riscos. Um fenômeno conhecido como “colapso do modelo” pode ocorrer quando uma IA é alimentada com informações geradas por outras IAs. Esse processo pode levar a uma degeneração progressiva, resultando em respostas cada vez mais distorcidas até que o modelo se torne irrecuperável. Esse risco foi demonstrado pela primeira vez em 2023 e é uma preocupação significativa no campo da IA.
Apesar desses riscos, a Nvidia destaca uma aplicação promissora para os dados sintéticos: o alinhamento de IA. O alinhamento refere-se ao ajuste de uma IA para garantir que suas respostas estejam de acordo com os objetivos específicos de seus criadores. Esse processo é crucial para garantir a segurança e a eficácia das IAs no futuro.
Em testes realizados pela Nvidia, o Nemotron-4 340B gerou dados sintéticos que foram usados para alinhar o algoritmo Llama 3 70B, desenvolvido pela Meta. Os resultados foram impressionantes: o Llama 3 70B alcançou um nível de alinhamento igual ou superior ao Llama 3 70B Instruct, que foi alinhado com dados gerados por humanos.
A introdução de dados sintéticos para o treinamento e alinhamento de IAs representa um passo significativo para a indústria. Essa abordagem pode não apenas acelerar o desenvolvimento de novas tecnologias, mas também mitigar alguns dos desafios éticos e legais associados ao uso de dados reais.