s
- Scribe: alta precisão e suporte para 99 idiomas na transcrição.
- Modelo supera concorrentes e traz recursos avançados para legendagem.
- A ElevenLabs lançará a versão em tempo real em breve.
A ElevenLabs, especializada em inteligência artificial para geração de áudio, acaba de expandir seu portfólio com o lançamento do Scribe. A ferramenta é, assim, o primeiro modelo autônomo de transcrição de fala para texto da startup.
O modelo chega ao mercado depois de uma captação de R$ 1,03 bilhão (US$ 180 milhões) em investimentos, elevando a avaliação da ElevenLabs para R$ 19,00 bilhões (US$ 3,3 bilhões).
Com essa novidade, a ElevenLabs entra de vez no setor de reconhecimento de fala e passa a competir com empresas como Speechmatics e OpenAI, por exemplo.
O modelo Scribe promete alto desempenho, sendo capaz de reconhecer 99 idiomas e oferecer transcrições com taxa de erro inferior a 5% em 25 desses idiomas, incluindo inglês, francês, alemão, português, espanhol e japonês.
Em entrevista recente ao TechCrunch, o CEO Mati Staniszewski falou sobre melhorar os modelos de detecção de fala:
Queremos entender melhor o que está sendo dito por você em uma conversa. Estamos trabalhando em maneiras de nos afastarmos de apenas gerar conteúdo e entender e transcrever a fala. Muitas pessoas dizem que a conversão de fala em texto é um problema resolvido. Mas, para muitos idiomas, é bem ruim. Achamos que podemos construir melhores modelos de detecção de fala porque temos equipes internas para anotar dados e nos dar um feedback rápido.
Scribe apresenta precisão e recursos avançados para transcrição
A qualidade do Scribe foi testada nos benchmarks FLEURS e Common Voice. Segundo a startup, ele superou superou modelos renomados, como o Google Gemini 2.0 Flash e o Whisper Large V3 da OpenAI. Além da alta precisão, o modelo traz funcionalidades como diarização inteligente, que identifica quem está falando; registro de data e hora por palavra, garantindo legendas mais precisas; e marcação automática de eventos sonoros, como risadas ou aplausos do público.
Atualmente, o Scribe opera apenas com arquivos de áudio pré-gravados. No entanto, a ElevenLabs já confirmou que está desenvolvendo uma versão em tempo real, o que permitirá o uso da tecnologia para transcrições ao vivo.
A ElevenLabs oferece o serviço por R$ 2,30 (US$ 0,40) por hora de áudio, tornando-o competitivo no mercado.
Com esse avanço, a ElevenLabs, se posiciona como um dos principais players na detecção de fala no Mercado. A empresa investe em agentes de voz e amplia as possibilidades de acessibilidade e produção de conteúdo.