- Estudantes criam IA de voz avançada e gratuita
- Modelo Dia imita falas com risos, pausas e entonações
- Projeto desafia gigantes com inovação e código aberto
Dois estudantes universitários desenvolveram um modelo de fala artificial que promete bater de frente com o NotebookLM, do Google.
Sem experiência prévia em IA, eles construíram a tecnologia em apenas três meses e já atraíram atenção global.
Toby Kim e seu colega, fundadores da Nari Labs, decidiram mergulhar no universo da fala sintética ao perceberem uma lacuna nas ferramentas disponíveis. Eles buscavam mais liberdade no roteiro e controle sobre as vozes geradas. A inspiração veio diretamente do NotebookLM, mas o objetivo era ultrapassar os limites do que o mercado oferece hoje.
Modelo Dia oferece personalização inédita e acessibilidade
Batizado de Dia, o modelo conta com 1,6 bilhão de parâmetros e permite criar falas com entonação personalizada, pausas naturais e até elementos como risos, tosses e hesitações. A base técnica foi viabilizada pelo programa TPU Research Cloud, do próprio Google, que ofereceu acesso gratuito aos chips de IA da empresa.
O Dia, modelo de IA de voz, está disponível publicamente no Hugging Face e no GitHub, e roda em qualquer PC moderno com 10 GB de VRAM. Ao rodar o script, o modelo de IA gera vozes aleatórias, mas também aceita descrições de estilo e consegue clonar vozes humanas com fidelidade.
Apesar da inovação, a Nari Labs ainda não revelou os dados usados no treinamento. Essa ausência levanta dúvidas sobre o uso de material com direitos autorais. Um usuário do Hacker News afirma que uma das amostras do Dia soa idêntica aos apresentadores do podcast Planet Money, da NPR.
Uso ético segue sendo um desafio
A ausência de bloqueios no uso do Dia preocupa especialistas. Assim como outros geradores de voz, a ferramenta pode ser usada para falsificar declarações, espalhar desinformação ou criar áudios fraudulentos. Embora a Nari advirta contra abusos, a empresa afirma que “não se responsabiliza” pelo uso indevido da tecnologia.
Mesmo com esses riscos, Kim garante que o objetivo do projeto é construir uma plataforma social de fala sintética, aberta e ética. A Nari Labs planeja lançar um relatório técnico detalhado e expandir o suporte do Dia para múltiplos idiomas.
Ainda mais, se o modelo continuar evoluindo nesse ritmo, startups e gigantes do setor terão que olhar com atenção para dois estudantes que ousaram desafiar o padrão da indústria.