DeepL AI Labs

La traduzione vocale in tempo reale non è solo una traduzione con una nuova forma di input o output. È una sfida fondamentalmente nuova, diversa ed entusiasmante per la ricerca sull’IA. Il suo obiettivo è offrire un’esperienza utente molto diversa, che cambia le priorità della traduzione, introduce nuovi vincoli e richiede nuove forme di giudizio e processo decisionale da parte di un modello di IA. 

Questa è la sfida che il responsabile della ricerca Sascha Brinker e la ricercatrice Kristina Geißler stanno affrontando come parte del nostro team di ricerca sul parlato. Fanno parte del gruppo che sta sviluppando il modello di IA di DeepL, già di altissima qualità per la traduzione di testo, per stabilire un nuovo standard nella traduzione vocale in tempo reale. Ora stanno consolidando quel primo successo con nuovi modelli e tecniche di addestramento che aprono possibilità completamente nuove per la voce multilingue in tempo reale.

Partendo da modelli di traduzione di testo di alta qualità

Siamo partiti da una buona base: la qualità e la comprensione contestuale del modello di traduzione di testo già esistente di DeepL. Il team Voice è riuscito a ottenere importanti risultati iniziali implementando questo modello e adattando la strategia di inferenza per aumentare la velocità di traduzione. Ha poi sviluppato modelli su misura per la voce in grado di identificare il momento migliore per fornire le traduzioni, sfruttando la comprensione di DeepL delle relazioni tra le coppie linguistiche e applicando nuovi livelli di addestramento. 

L’obiettivo è trovare il giusto equilibrio tra latenza e velocità delle traduzioni (fondamentale per permettere agli utenti di seguire e partecipare a una conversazione mentre si svolge), da un lato, e accuratezza e stabilità, dall’altro. Padroneggiare questo equilibrio significa che DeepL non deve aspettare la fine di una frase prima di tradurla. Allo stesso tempo, riduce al minimo lo “sfarfallio” che si verifica quando i modelli sono costretti a correggere i sottotitoli tradotti. Questi aspetti fanno un’enorme differenza nell’esperienza utente.

Eliminare la fase di trascrizione

Adattare e far evolvere il nostro modello di traduzione di testo ci ha portato molto lontano. Tanto che Slator attualmente classifica DeepL come il leader indiscusso sia per la qualità che per la stabilità delle traduzioni vocali in tempo reale. Tuttavia, eliminare la necessità di trascrivere il testo prima di tradurlo può portarci ancora più lontano, e più velocemente. Il team sta attualmente sviluppando modelli in grado di generare un output vocale tradotto direttamente dall’input audio, senza passare per una fase di testo intermedia.

Possiamo ottenere ulteriori miglioramenti fornendo al nostro modello più contesto sulle conversazioni che traduce: di cosa si sta parlando, chi ne sta parlando e le frasi e la terminologia specifiche che probabilmente useranno. Questo riproduce gran parte dell’intenso lavoro di preparazione che gli interpreti umani di alto livello svolgono prima di grandi eventi o riunioni. Proprio come loro, questo permette ai nostri modelli di tradurre ciò che qualcuno sta per dire, fin dal momento in cui inizia a formulare una parola.

Nuove frontiere per la traduzione vocale

Questi nuovi modelli diretti di traduzione da voce a voce spazzano via alcuni dei vincoli più importanti che la traduzione vocale deve attualmente affrontare. In questo modo, aprono la strada a nuove possibilità davvero entusiasmanti.

Senza dover tradurre prima in testo e poi di nuovo in parlato, possiamo guadagnare interi secondi nel tempo necessario per fornire una traduzione vocale. Nel contesto del riconoscimento vocale in tempo reale, si tratta di un’accelerazione davvero significativa che avrà un grande impatto sull’esperienza utente e del pubblico.

E c’è di più. Lavorare direttamente con l’input audio significa che possiamo addestrare i modelli a riconoscere accenti, dialetti e sfumature insite nel modo in cui le persone parlano. Un tempo di inferenza maggiore e input audio più ricchi ci permettono di creare output vocali che acquisiscono l’emozione e il significato più profondo di ciò che le persone dicono.

Il futuro della traduzione vocale in tempo reale tramite l’IA non è solo più veloce. È anche più profondamente umano: acquisisce meglio i tanti livelli su cui le persone comunicano quando parlano. Sta trasformando DeepL da un motore di traduzione a un livello vocale in tempo reale, in grado di consentire la forma più naturale di comunicazione umana, in modo tale che la lingua scompaia come fonte di attrito. 

Ecco perché questo è uno dei settori più entusiasmanti della ricerca sull’IA qui a DeepL. 

Condividi