Se o texto explica, a voz convence

05 de novembro de 2025

por Redação The Shift

Se o texto explica, a voz convence

Em 2021, dois amigos de colégio em Varsóvia, Mati Staniszewski e Piotr Dabkowski, decidiram resolver um incômodo antigo: o hábito polonês de dublar todos os filmes com uma única voz masculina, monótona, indiferente à emoção dos personagens. “Era uma experiência horrível”, lembra Mati. “E pensamos: isso vai mudar.”

A ideia, nascida de uma cena doméstica — Piotr assistindo a um filme com a namorada, que não falava inglês —, virou o ponto de partida da ElevenLabs, hoje um dos unicórnios mais promissores da Inteligência Artificial global, com sede no Reino Unido. Com apenas três anos de idade, a empresa alcançou 40 milhões de usuários, está presente em 75% das 500 maiores companhias do mundo e dobrou seu valuation para US$ 6,6 bilhões, em setembro, com uma terceira rodada de aporte de fundos, liderada pela Sequoia Capital

O que começou como uma solução para dublagem evoluiu para algo bem maior: uma plataforma de áudio sintético que pretende transformar a voz na nova interface da era digital. Enquanto gigantes da IA concentravam seus esforços em texto e imagem, a ElevenLabs decidiu ocupar o espaço do som. “Ficamos focados em áudio — na pesquisa e no produto. Isso fez toda a diferença”, conta Staniszewski em uma entrevista no podcast da Sequoia.

A decisão se mostrou estratégica. Os modelos de texto são treinados em grandes volumes de dados públicos e estruturados; os de voz, não. Há pouca base de áudio de alta qualidade, e o desafio vai além do que é dito: envolve como é dito, incluindo emoção, ritmo, pausas, intenção. A ElevenLabs desenvolveu uma arquitetura própria capaz de capturar esse contexto e gerar vozes com naturalidade quase humana. “Pela primeira vez, os modelos de texto para fala entenderam o contexto e entregaram emoção e tom”, diz Mati.

Essa combinação de ciência e sensibilidade levou à criação de ferramentas que vão de text-to-speech e dublagem a agentes conversacionais. E, recentemente, de um modelo que adiciona “emoções” à fala com tags específicas — uma voz pode rir, hesitar, ou mudar de tom conforme o contexto. Staniszewski acredita que estamos perto do “Turing test da voz”: o momento em que uma conversa com um agente será indistinguível da interação com um humano. “Acho que podemos chegar lá ainda este ano”, afirma.

A ambição da ElevenLabs vai além da conversação. Staniszewski acredita que a IA de voz vai quebrar as barreiras linguísticas e culturais do planeta. “Se você leu O Guia do Mochileiro das Galáxias, lembra do Babel Fish — aquele peixinho que traduz tudo. Ele vai existir. A tecnologia vai tornar isso possível.” A ideia é permitir que qualquer pessoa fale com outra, em qualquer idioma, mantendo sua própria voz, sotaque e emoção. “Será um salto na troca cultural global. Imagine conversar com alguém na Índia e ser entendido como se fosse um diálogo nativo”, diz ele.

Enquanto a ElevenLabs expande globalmente sua tecnologia de voz com inteligência artificial, o Brasil desponta como um dos dez maiores mercados da empresa — tanto em receita quanto em uso. A companhia, que acaba de inaugurar escritório local, aposta no potencial criativo do país e na capacidade das empresas brasileiras de transformar a voz em uma nova interface de conexão com clientes.

A empresa chega com 13 produtos ativos, incluindo o Eleven Music, que compõe trilhas a partir de prompts, e uma plataforma completa de agentes de voz, capaz de gerar clones, criar personas e integrar conversas com sistemas corporativos. No centro da estratégia estão qualidade, latência e escalabilidade. A meta é atingir interações tão naturais quanto uma ligação humana — hoje, a latência média da ElevenLabs é de 75 milissegundos, quase imperceptível.

Em entrevista à The Shift, Brunno Santos, diretor da ElevenLabs no Brasil, fala sobre os planos para a região, o impacto da voz na comunicação corporativa e o papel da IA como ferramenta de empatia, escala e humanização. “O brasileiro adotou a IA de texto — via WhatsApp — com enorme naturalidade. A voz é o passo seguinte. Ela cria empatia, aproxima, transmite sensibilidade. O texto informa, mas a voz conecta”, resume Brunno. Confira trechos da entrevista abaixo, e a entrevista completa no site da The Shift.

Silvia Bassi

 


 

A voz que humaniza a IA

 

O potencial da tecnologia é vasto. Do atendimento ao cliente às experiências imersivas, passando por tutores digitais, call centers, mídia e educação, a IA de voz promete redefinir o modo como empresas e consumidores se comunicam.

No Brasil, há pilotos em setores variados: financeiro, varejo, automotivo e agro. Mostramos um caso de uma empresa de carros que usa IA por voz dentro do veículo. E outro de varejistas que automatizam vídeos de produtos com narração sintética — o que aumenta conversão e reduz custos. No agro, há empresas que utilizam speech-to-text para converter mensagens de voz em texto e responder com text-to-speech — uma solução prática para quem está no campo, sem tempo para digitar.

“O brasileiro é early adopter por natureza, comunicativo e curioso. Isso nos coloca à frente na adoção da IA de voz.”

A regionalização também conta. O cliente do Sul quer ouvir o sotaque do Sul, o mineiro quer ouvir o mineiro. Nosso marketplace e o design de voz permitem essa personalização cultura. 

A estratégia local se baseia em três pilares: localização, time local e ecossistema de parceiros. Já temos a plataforma 100% localizada em português e agora queremos ampliar a conscientização do mercado sobre o potencial da IA por voz.  A ElevenLabs é a primeira empresa global de IA de voz a operar no Brasil. Isso é ótimo, porque há um oceano de oportunidades, mas o conhecimento ainda é baixo. Nosso papel é educar o mercado: mostrar como usar, como medir ROI e como aprimorar a tecnologia.


Tecnologia para diferentes usos

Nós nos definimos como um laboratório de Inteligência Artificial por voz, com três diferenciais principais. O primeiro é o contexto. Temos um marketplace com mais de 5 mil vozes e a possibilidade de clonagem juridicamente correta e design de voz via prompt. Isso permite uma personalização granular:

Você pode descrever, por exemplo, “mulher de 40 anos, nascida em Minas Gerais, sotaque informal e amigável”, e o sistema gera uma voz com essas características.

O segundo diferencial é o suporte multilíngue. Hoje trabalhamos com mais de 70 idiomas, incluindo o português do Brasil, que tem um papel estratégico para a companhia. E o terceiro é a escalabilidade, com duas variáveis cruciais: qualidade e latência. A voz é o que conecta. Cada cliente tem uma voz específica, e nós buscamos uma latência muito próxima à humana — em torno de 150 a 200 milissegundos. A nossa está em 75 ms, o que garante conversas mais fluidas.

Temos 13 produtos no mercado, que vão de text-to-speech e speech-to-text a voice cloning. Recentemente, lançamos o Eleven Music, que cria músicas a partir de prompts, e nossa principal oferta é a plataforma de agentes de voz. Em poucos cliques, é possível criar um agente de IA por voz com prompt comportamental, base de conhecimento e escolha do LLM. Tudo integrado com telefonia. Também lançamos o modelo de voz V3, atualmente em versão alfa.

É o primeiro modelo do mundo que, por meio de tags de emoção, muda a entonação da voz — é possível adicionar sons e ruídos naturais, o que humaniza a interação.

Hoje, a ElevenLabs já tem 40 milhões de usuários globais e está presente em 75% das 500 maiores empresas do mundo. O Brasil, mesmo antes da abertura oficial da operação, já era um dos dez principais mercados em receita e uso.

A explicação, na nossa visão, é que o país adotou rapidamente a IA por texto — via WhatsApp — e agora vê na voz uma extensão natural. A voz cria empatia, aproxima e transmite sensibilidade. Além disso, o brasileiro ainda prefere resolver situações por telefone, e isso favorece o uso da nossa tecnologia.

 

Grande poder, grande responsabilidade

Esse é um ponto central para nós. A responsabilidade ética é um pilar cultural da ElevenLabs. Temos três mecanismos principais de segurança. Primeiro, o Voice Capture, uma tecnologia proprietária que identifica qualquer clonagem de voz ilegal dentro da plataforma e bloqueia automaticamente a conta. Segundo, uma moderação ativa. Se identificamos um uso fora da nossa política, trabalhamos em conjunto com as autoridades brasileiras — mantemos um relacionamento próximo com elas. E terceiro, um site público em que qualquer pessoa pode enviar um áudio para verificar se ele foi gerado pela ElevenLabs.

Sobre a obrigatoriedade de informar se se trata de uma voz de IA, acreditamos que isso deve ser definido por regulamentação. O projeto de lei de IA no Brasil certamente vai tratar disso. Mas, na prática, nossos testes mostram resultados positivos nos dois casos — quando a voz se identifica como IA e quando não. Consideramos como boa prática informar as pessoas sobre o uso da voz sintética, especialmente em atendimento ao cliente. A transparência fortalece a relação com o usuário.
 

Como tirar o melhor da tecnologia

A ElevenLabs já alcançou US$ 200 milhões em receita recorrente anual e deve superar US$ 300 milhões até o fim do ano. Isso mostra que o potencial da IA é real. Hoje há tecnologia madura e escalável com alta qualidade, algo que não existia há poucos anos. Também há melhores práticas globais sendo consolidadas, embora cada região tenha seu próprio ritmo de maturidade. Nosso compromisso é trazer essas práticas para o Brasil.

O desafio é que nenhuma tecnologia é plug and play. Toda adoção exige mudança cultural, planejamento e mensuração de resultados.

Falta ainda mão de obra qualificada em IA de voz — o que é um bom sinal, pois mostra o início de um mercado. E há também uma ansiedade natural das empresas em adotar tudo de forma acelerada. Mas é uma jornada, e ela precisa ser feita com consciência e preparo.

 


 

Conteúdo originalmente produzido e publicado por The Shift.
Reprodução autorizada exclusivamente para a Abranet. A reprodução por terceiros, parcial ou integral, não é permitida sem autorização.

leia

também