ElevenLabs lança Scribe, IA para conversão de fala em texto

Por Luciano Rodrigues
Imagem: Dall-E

s

  • Scribe: alta precisão e suporte para 99 idiomas na transcrição.
  • Modelo supera concorrentes e traz recursos avançados para legendagem.
  • A ElevenLabs lançará a versão em tempo real em breve.

A ElevenLabs, especializada em inteligência artificial para geração de áudio, acaba de expandir seu portfólio com o lançamento do Scribe. A ferramenta é, assim, o primeiro modelo autônomo de transcrição de fala para texto da startup.

O modelo chega ao mercado depois de uma captação de R$ 1,03 bilhão (US$ 180 milhões) em investimentos, elevando a avaliação da ElevenLabs para R$ 19,00 bilhões (US$ 3,3 bilhões).

Com essa novidade, a ElevenLabs entra de vez no setor de reconhecimento de fala e passa a competir com empresas como Speechmatics e OpenAI, por exemplo.

O modelo Scribe promete alto desempenho, sendo capaz de reconhecer 99 idiomas e oferecer transcrições com taxa de erro inferior a 5% em 25 desses idiomas, incluindo inglês, francês, alemão, português, espanhol e japonês.

Em entrevista recente ao TechCrunch, o CEO Mati Staniszewski falou sobre melhorar os modelos de detecção de fala:

CONTINUA APÓS A PUBLICIDADE

Queremos entender melhor o que está sendo dito por você em uma conversa. Estamos trabalhando em maneiras de nos afastarmos de apenas gerar conteúdo e entender e transcrever a fala. Muitas pessoas dizem que a conversão de fala em texto é um problema resolvido. Mas, para muitos idiomas, é bem ruim. Achamos que podemos construir melhores modelos de detecção de fala porque temos equipes internas para anotar dados e nos dar um feedback rápido.

Scribe apresenta precisão e recursos avançados para transcrição

A qualidade do Scribe foi testada nos benchmarks FLEURS e Common Voice. Segundo a startup, ele superou superou modelos renomados, como o Google Gemini 2.0 Flash e o Whisper Large V3 da OpenAI. Além da alta precisão, o modelo traz funcionalidades como diarização inteligente, que identifica quem está falando; registro de data e hora por palavra, garantindo legendas mais precisas; e marcação automática de eventos sonoros, como risadas ou aplausos do público.

Atualmente, o Scribe opera apenas com arquivos de áudio pré-gravados. No entanto, a ElevenLabs já confirmou que está desenvolvendo uma versão em tempo real, o que permitirá o uso da tecnologia para transcrições ao vivo.

A ElevenLabs oferece o serviço por R$ 2,30 (US$ 0,40) por hora de áudio, tornando-o competitivo no mercado.

Com esse avanço, a ElevenLabs, se posiciona como um dos principais players na detecção de fala no Mercado. A empresa investe em agentes de voz e amplia as possibilidades de acessibilidade e produção de conteúdo.

Compartilhe:
Siga:
Jornalista, assessor de comunicação, escritor e comunicador, com MBA em jornalismo digital e 12 anos de experiência, tendo passado também por alguns veículos no setor tech.
Sair da versão mobile