DeepL AI Labs
Tłumaczenie mowy w czasie rzeczywistym to nie tylko tłumaczenie z nową formą wprowadzania lub wyprowadzania danych. To zupełnie nowe, inne i ekscytujące wyzwanie dla badań nad AI. Ma na celu zapewnienie zupełnie innego rodzaju doświadczenia użytkownika, które zmienia priorytety tłumaczenia, wprowadza nowe ograniczenia i wymaga od modelu AI nowych form oceny sytuacji oraz podejmowania decyzji.
To właśnie wyzwanie, z którym mierzą się kierownik ds. badań Sascha Brinker i naukowiec Kristina Geißler jako członkowie naszego zespołu zajmującego się badaniami nad tłumaczeniem głosowym. Należą do grupy, która rozwija najwyższej jakości model AI DeepL do tłumaczenia tekstu, aby skonfigurować nowy standard w tłumaczeniu mowy w czasie rzeczywistym. Teraz, opierając się na tych wczesnych sukcesach, pracują nad nowymi modelami i technikami trenowania, które otwierają zupełnie nowe możliwości w zakresie wielojęzycznej mowy w czasie rzeczywistym.
Zaczęliśmy od solidnej podstawy: jakości i zrozumienia kontekstu istniejącego modelu tłumaczenia tekstu DeepL. Zespół DeepL Voice zdołał osiągnąć ważne wczesne postępy, wdrażając ten model i dostosowując strategię wnioskowania, by zwiększyć szybkość tłumaczenia. Następnie opracowali specjalnie dostosowane modele DeepL Voice, które potrafią rozpoznać najlepszy moment na wygenerowanie tłumaczenia, wykorzystując wiedzę DeepL na temat relacji między parami języków oraz stosując nowe warstwy trenowania.
Celem jest tu znalezienie odpowiedniej równowagi między opóźnieniem a szybkością tłumaczeń (co ma kluczowe znaczenie dla możliwości użytkowników, by nadążać za rozmową i brać w niej udział na bieżąco) a dokładnością i stabilnością. Opanowanie tej równowagi oznacza, że DeepL nie musi czekać na koniec zdania, zanim je przetłumaczy. Jednocześnie minimalizuje to „migotanie”, które pojawia się, gdy modele są zmuszone do poprawiania przetłumaczonych napisów. Te rzeczy mają ogromny wpływ na doświadczenie użytkownika.
Dostosowywanie i rozwijanie naszego modelu tłumaczenia tekstu pozwoliło nam osiągnąć ogromny postęp. Do tego stopnia, że serwis Slator obecnie uznaje DeepL za zdecydowanego lidera zarówno pod względem jakości, jak i stabilności tłumaczeń mowy w czasie rzeczywistym. Jednak rezygnacja z konieczności transkrypcji tekstu przed tłumaczeniem może pozwolić nam pójść jeszcze dalej i szybciej. Zespół pracuje teraz nad modelami, które potrafią wygenerować przetłumaczoną mowę bezpośrednio z pliku audio, bez przechodzenia przez pośredni etap tekstowy.
Możemy osiągnąć jeszcze lepsze wyniki, dostarczając naszemu modelowi więcej kontekstu dotyczącego tłumaczonych rozmów: o czym się rozmawia, kto w nich uczestniczy oraz jakie konkretne zwroty i terminy prawdopodobnie zostaną użyte. To w dużej mierze odzwierciedla intensywne treningi, jakie najlepsi tłumacze wykonują przed ważnymi wydarzeniami czy spotkaniami. Tak jak oni, pozwala to naszym modelom tłumaczyć to, co ktoś zamierza powiedzieć, już od momentu, gdy zaczyna formułować pierwsze słowo.
Te nowe, bezpośrednie modele „mowa-mowa” eliminują niektóre z najważniejszych ograniczeń, z jakimi boryka się obecnie tłumaczenie mowy. Dzięki temu otwierają naprawdę ekscytujące nowe możliwości.
Bez konieczności tłumaczenia najpierw na tekst, a potem z powrotem, możemy zaoszczędzić całe sekundy na czasie potrzebnym do dostarczenia tłumaczenia ustnego. W kontekście śledzenia mowy w czasie rzeczywistym to bardzo znaczące przyspieszenie, które będzie miało duży wpływ na doświadczenie użytkownika i odbiorców.
A to nie wszystko. Praca bezpośrednio z danymi audio oznacza, że możemy trenować modele tak, by rozpoznawały akcenty, dialekty i niuanse zakodowane w sposobie, w jaki ludzie mówią. Dodatkowy czas na wnioskowanie oraz bogatsze dane audio oznaczają, że możemy tworzyć tłumaczenia mówione, które oddają emocje i głębsze znaczenie tego, co mówią ludzie.
Przyszłość tłumaczenia mowy w czasie rzeczywistym z wykorzystaniem AI to nie tylko większa szybkość. Jest też bardziej ludzka: oddaje więcej z tych wielu poziomów, na których ludzie komunikują się podczas rozmowy. To sprawia, że DeepL przechodzi transformację z silnika tłumaczeniowego w warstwę głosową działającą w czasie rzeczywistym, zdolną do umożliwienia najbardziej naturalnej formy ludzkiej komunikacji w sposób, który sprawia, że język przestaje być źródłem tarć.
To właśnie sprawia, że jest to jeden z najbardziej ekscytujących obszarów badań nad AI w DeepL.