DeepL AI Labs
A tradução de fala em tempo real não é só tradução com uma nova forma de entrada ou saída. É um desafio fundamentalmente novo, diferente e empolgante para a pesquisa em IA. O objetivo é proporcionar uma experiência do usuário bem diferente, que mude as prioridades da tradução, introduza novas restrições e exija novas formas de julgamento e tomada de decisão de um modelo de IA.
Esse é o desafio que o gerente de pesquisa Sascha Brinker e a cientista de pesquisa Kristina Geißler estão enfrentando como parte da nossa equipe de pesquisa de voz. Eles fazem parte do grupo que está aprimorando o modelo de IA de qualidade superior da DeepL para tradução de textos, a fim de definir um novo padrão na tradução de voz em tempo real. Agora, eles estão aproveitando esse sucesso inicial com novos modelos e técnicas de treinamento que abrem possibilidades totalmente novas para a fala multilíngue em tempo real.
Começamos com uma boa base: a qualidade e a compreensão contextual do modelo de tradução de textos já existente da DeepL. A equipe de Voz conseguiu obter ganhos importantes logo no início ao implementar esse modelo e ajustar a estratégia de inferência para aumentar a velocidade da tradução. Em seguida, desenvolveram modelos personalizados para voz, capazes de identificar o melhor momento para gerar as traduções, aproveitando a compreensão do DeepL sobre as relações entre pares de idiomas e aplicando novas camadas de treinamento.
O objetivo aqui é encontrar o equilíbrio certo entre a latência e a velocidade das traduções (fundamental para que os usuários consigam acompanhar e participar de uma conversa enquanto ela acontece), sem abrir mão da precisão e da estabilidade. Dominar esse equilíbrio significa que o DeepL não precisa esperar o fim de uma frase para traduzi-la. Ao mesmo tempo, isso minimiza o “trepidação” que ocorre quando os modelos são forçados a corrigir legendas traduzidas. Esses detalhes fazem uma enorme diferença na experiência do usuário.
Adaptar e aprimorar nosso modelo de tradução de textos nos levou muito longe. Tanto que o Slator atualmente classifica o DeepL como o líder indiscutível tanto em qualidade quanto em estabilidade nas traduções de voz em tempo real. No entanto, eliminar a necessidade de transcrever o texto antes de traduzi-lo pode nos levar ainda mais longe, mais rápido. A equipe está desenvolvendo modelos que conseguem gerar a saída de fala traduzida diretamente a partir da entrada de áudio, sem passar por uma etapa intermediária de texto.
Podemos obter ganhos ainda maiores fornecendo ao nosso modelo mais contexto sobre as conversas que ele traduz: o que está sendo discutido, quem está discutindo e as frases e terminologias específicas que eles provavelmente usarão. Isso reproduz grande parte do trabalho intensivo de treinamento que intérpretes humanos de alto nível fazem antes de grandes eventos ou reuniões. Assim como eles, isso permite que nossos modelos traduzam o que alguém está prestes a dizer, desde o momento em que começa a formar uma palavra.
Esses novos modelos diretos de fala para fala eliminam algumas das principais limitações que a tradução de voz enfrenta atualmente. Com isso, abrem novas possibilidades muito empolgantes.
Sem a necessidade de traduzir para texto e de volta, a gente ganha segundos inteiros no tempo que leva para entregar uma tradução falada. No contexto de acompanhar a fala em tempo real, essa é uma aceleração muito significativa que vai ter um grande impacto na experiência do usuário e do público.
E tem mais. Trabalhar diretamente com a entrada de áudio significa que podemos treinar modelos para detectar sotaques, dialetos e nuances embutidas na maneira como as pessoas falam. Mais tempo de inferência e entradas de áudio mais ricas significam que podemos criar saídas faladas que captam a emoção e o significado mais profundo do que as pessoas dizem.
O futuro da tradução de voz em tempo real por meio da IA não é apenas mais rápido. É também mais profundamente humano: captando melhor os diversos níveis em que as pessoas se comunicam ao falar. Isso está transformando o DeepL de um mecanismo de tradução em uma camada de voz em tempo real, capaz de possibilitar a forma mais natural de comunicação humana, de um jeito que faz o idioma desaparecer como fonte de atrito.
É isso que faz dessa uma das áreas mais empolgantes da pesquisa em IA na DeepL.