Met realtime spraakvertalingen kunnen medewerkers in contactcenters klanten ondersteunen in hun eigen taal, ook als de medewerker die taal niet spreekt. De technologie maakt de laatste jaren flinke stappen, onder meer bij het Duitse DeepL. Zo pakken zij dat aan.
Tekst: Eveline Meijer
Afgelopen februari maakte DeepL zijn eigen Voice API algemeen beschikbaar. Daarmee kunnen ontwikkelaars realtime transcriptie- en vertaalfuncties in hun applicatie integreren.
Concreet bestaat het product uit twee mogelijkheden. Allereerst is er een optie om gesproken tekst om te zetten in een geschreven vertaling. Handig voor bijvoorbeeld vergaderingen, zegt Leonardo Doin, product manager van Voice API bij DeepL, tegenover Ziptone. “Mensen lezen graag één of twee paragrafen terug om te zien wat er precies besproken is.”
Daarnaast is er een speech-to-speech-optie, gericht op contactcenters. Doin geeft tijdens het gesprek met Ziptone een kleine demonstratie van beide opties. Zijn gesproken Portugese tekst wordt vrijwel direct omgezet naar een Nederlandse geschreven vertaling. In de tweede demonstratie horen we binnen luttele seconden de Engelse gesproken vertaling van zijn Portugese uitspraak.
Omgang met talen
De grootste uitdaging bij het vertalen is het verschil in grammatica tussen talen, zegt Doin. “In sommige talen staat het werkwoord vaak aan het einde van de zin, in tegenstelling tot de Engelse taal. Je kunt een zin dus niet te snel vertalen, want dan moet je de tekst halverwege aanpassen.” Bij geschreven vertalingen resulteert dat in ‘flikkerende’ tekst.
DeepL past daarom de geschreven tekst niet meer aan als deze in beeld verschijnt. Maar dan moet die tekst wel kloppen. Generatieve AI kan een uitkomst bieden: deze technologie is goed in het voorspellen van het meest waarschijnlijke volgende woord in een zin. “Maar wij optimaliseren onze AI-modellen op kwaliteit. We proberen dus niet al te veel te voorspellen en laten een vertaling niet te vroeg zien. Ze worden pas getoond als we echt heel zeker weten dat een vertaling klopt”, benadrukt Doin. Tegelijkertijd moet het vertaalmodel wel snel zijn, anders moeten gebruikers te lang op hun antwoord wachten.
“Dat is waar onze eerste technologische doorbraak zit: weten hoe we onze modellen moeten trainen om zo snel mogelijk te vertalen, zonder die vertaling achteraf aan te moeten passen. Dat is een erg complexe uitdaging, die met name te maken heeft met grammatica en de manier waarop talen gestructureerd zijn. Vervolgens moeten we onze modellen zo trainen dat ze de verschillen tussen allerlei talen begrijpen.”
Spraakvertalingen optimaliseren
Voor de speech-to-speech-vertalingen wordt vrijwel dezelfde technologie gebruikt. Maar zeker hier is snelheid belangrijk. Klanten willen niet eindeloos wachten tot hun vraag vertaald is, het antwoord gegeven wordt en dat antwoord ook weer vertaald is. Als dat te lang duurt, haken mensen af.
Probleem is dat dit soort systemen met flink wat tussenstappen werken. De gesproken tekst van de klant wordt eerst omgezet in geschreven tekst, die door het AI-model wordt vertaald naar nieuwe geschreven tekst. Daarna moet die tekst weer worden omgezet in spraak, in de taal van de klantenservicemedewerker. Met het antwoord gebeurt dat vervolgens allemaal weer opnieuw. “Nu kun je wel een snelle spraaksynthese hebben, maar als je geen snelle vertaal-engine hebt, duurt het alsnog te lang.”
Hoe pakt DeepL dat dan aan? “We hebben een uniek voordeel: we hebben onze eigen inference stack”, zegt Doin. De inference stack, kort gezegd de eigen software en rekenkracht waarmee DeepL zijn taalmodellen laat draaien, is volledig in eigen beheer. “Daardoor kunnen we de manier waarop al die onderdelen met elkaar communiceren optimaliseren en de latency heel laag houden.”
Benchmark
Een recente benchmark die Slator in opdracht van DeepL uitvoerde, laat zien dat dit goed is gelukt. Gebruikers geven de vertaalkwaliteit van DeepL Voice een score van ruim 96 punten op een schaal van 100. In 79% van de gevallen produceert de tool volledig vloeiend vertaalde segmenten en de kans op kritieke en grote vertaalfouten is volgens de benchmark gemiddeld 76% lager dan bij andere platformen. Verder scoort de stabiliteit van ondertiteling tussen de 85 en 88 punten, afhankelijk van of DeepL Voice in Teams of Zoom gebruikt wordt.
Volgens Doin zit de onderscheidende factor hem in een paar belangrijke aspecten. Allereerst dus het feit dat DeepL zijn eigen inference stack beheert. Zo heeft DeepL zijn eigen datacenter in Zweden staan, en ontwikkelt en beheert het zijn eigen AI-modellen. Daarnaast heeft het bedrijf een gespecialiseerd team dat onderzoek doet naar taal. Daardoor heeft DeepL diepgaande kennis opgebouwd over de eigenaardigheden van verschillende talen en vertalingen.
Gebruikers hebben verder de mogelijkheid om een lijst met veelgebruikte termen te uploaden. “Een aantal grote klanten van ons in Duitsland en Japan hebben lange lijsten met termen en idiomen die ze veel gebruiken in de context van hun teams en werk. Op basis van zo’n lijst kunnen we wat agressiever zijn met de voorspellingen van de taalmodellen, omdat we al weten wat bepaalde vertalingen moeten zijn. Dat verbetert de kwaliteit van de vertalingen.”
Maar minstens net zo belangrijk is hoe DeepL zijn AI-modellen heeft ingericht. “De grootste taalmodellen op de markt, zoals Gemini, ChatGPT en Claude, zijn ontworpen om met heel veel use cases om te gaan. Wat ons uniek maakt, is dat wij onze modellen alleen ontworpen hebben voor vertalingen”, legt Doin uit. De modellen van DeepL hoeven dus geen teksten te genereren, puzzels op te lossen of andere problemen aan te pakken. Daardoor kunnen ze volledig geoptimaliseerd worden voor vertalingen, en niets anders. “Dat maakt ze sneller dan de multifunctionele modellen, die veel trager zijn.”
Latency
Toch ontkomt ook DeepL niet aan enige latency bij zijn vertalingen. “Als je een Nederlandse zinsopbouw pakt en die vergelijkt met de Engelse, dan zit er altijd een grammaticale grens op hoe snel je kunt vertalen. Dat geldt overigens ook voor mensen: een menselijke vertaler moet ook wachten tot er voldoende context is om iets te vertalen”, zegt Doin. “Latency is nu eenmaal intrinsiek aan vertaling.”
Sommige andere partijen lossen dat op door kunstmatige geluiden toe te voegen aan het gesprek, zodat de klant niet het idee krijgt dat de verbinding verloren is. Denk aan achtergrondgeluiden als een toetsenbord waarop getypt wordt of ‘collega’s’ die ergens staan te praten.
DeepL doet dat bewust niet, zegt Doin. “We hebben een samenwerking met AWS (zie ook het kader aan het eind van dit artikel, red.) en draaien wat pilots met AWS Connect, waar veel van de producten ook achtergrondgeluid toevoegen. Maar wij hebben ontdekt dat de vertalingen voor onze klanten zo snel gaan, dat die geluiden helemaal niet welkom zijn. Hier geldt een bepaalde drempelwaarde voor. Als je vijf of zes seconden moet wachten, dan is het handig om een achtergrondgeluid te hebben, zodat klanten weten dat je nog aan de lijn bent. Maar onze latency is slechts drie seconden. Dan heb je dat geluid niet meer nodig, omdat de klant niet het gevoel heeft dat er opgehangen wordt.”
Zoals de Babelvis
Het Duitse bedrijf is echter niet de enige die aan dergelijke technologie werkt. Ook organisaties als Parloa en Cognigy werken aan dergelijke technieken. Toch ziet DeepL een andere positie in de markt voor zichzelf. “Zij werken aan klantcontactdiensten, met allerlei tools. Denk aan transcripten van telefoongesprekken, automatisering en kwaliteitsdiensten. Wij focussen ons alleen maar op realtime vertalingen en niet op alles wat verder om klantcontact heen zit”, concludeert Doin.
DeepL ziet zichzelf dan ook niet als directe concurrent van deze partijen. Hun technologie is immers prima te integreren in de platformen van bestaande klantcontactspelers. “We zien meer een samenwerking voor ons.”
In de toekomst wordt de technologie alleen maar geavanceerder. “Ik denk aan ervaringen als het universele vertaalapparaat in Star Trek of de Babelvis in The Hitchhiker’s Guide to the Galaxy. Die gebruik je en je snapt gewoon direct wat de ander zegt”, zegt Doin.
DeepL werkt naar zo’n toekomst door zijn modellen steeds verder te verbeteren. “In het komende jaar hebben we meer end-to-end-modellen en brengen we de latency in vertalingen nog verder omlaag.”
Samenwerking met AWS – DeepL maakte in maart dit jaar bekend dat het AWS inschakelt als subprocessor. Vertaaldata wordt daarmee niet meer alleen op de servers van DeepL, die in Europa staan, verwerkt, maar ook via de infrastructuur van Amazon. Die nieuwe voorwaarden gelden wereldwijd. Wie nog gebruik wil maken van DeepL, moet met die nieuwe algemene voorwaarden akkoord gaan.
DeepL zegt in reactie op vragen van Ziptone dat het zijn infrastructuur evolueert om klanten “de prestaties, betrouwbaarheid en innovatie te geven die zij verdienen”. “Met een snelgroeiend klantenbestand in regio’s als Azië, de VS en daarbuiten, implementeren we een next-generation hybride cloudstrategie die onze vertrouwde datacenters in de Europese Economische Ruimte (EEA) combineert met aanvullende cloudbronnen van AWS”, zegt een woordvoerder.
“Privacy, security en vertrouwen zijn onze hoogste standaarden en leiden iedere stap in ons AI-onderzoek en productontwikkeling. Met onze groeiende infrastructuur kunnen we diezelfde compromisloze toewijding bieden aan klanten overal ter wereld.” Wie meer informatie wil, kan contact opnemen met hun verkoopvertegenwoordiger of het supportteam, concludeert DeepL.
(Ziptone/Eveline Meijer)
Featured, Technologie




