De business case voor realtime (spraak)vertalen (RTT) is duidelijk: je kunt klanten in kleine taalgebieden in hun eigen taal bedienen én je kunt daarbij profiteren van een loonkostenvoordeel. Sabio heeft RTT voor twee verschillende klanten geïmplementeerd. Daar komt heel wat bij kijken.
Realtime spraakvertalen (RTT) is een interessante en belangrijke toepassing voor bedrijven met een meertalige customer service. Er zijn verschillende manieren om RTT in te richten, maar het eindresultaat is steeds dat medewerker en klant elk in hun eigen taal communiceren. Waar medewerker staat, zou je overigens ook voicebot kunnen lezen.
Lees ook: Realtime spraakvertalen bij Transcom: ‘dure talen’ afwikkelen in lagelonenlanden
Het implementeren van een ‘tool’ zoals RTT is geen sinecure. Er moeten meerdere applicaties die aan elkaar geknoopt moeten worden. Daarnaast heeft het implementeren van RTT gevolgen voor de menselijke kant: je zult moeten kijken naar user experience van zowel klant als medewerkers en de CX van de klant. RTT heeft ook gevolgen voor je operatie, met als meest in het oog springend de AHT – die schiet omhoog. Redenen genoeg om met drie specialisten van Sabio in gesprek te gaan.
Uitgangspunt is een conversatie in twee talen, zo steekt Klaus Failenschmid (Head of User Experience, Sabio) van wal. Niet iedereen spreekt of begrijpt elke taal. “Bij de Verenigde Naties wordt dat probleem per taal opgelost met simultaanvertalers die gelijktijdig luisteren en de vertaling uitspreken. Hierbij zorgen de conversatiepartijen ervoor dat niemand, laat staan de vertaler, overvoerd wordt met input. Bij de toepassing die Sabio heeft ontwikkeld, worden beide processen van elkaar gescheiden: de input wordt omgezet én de respons wordt omgezet. Beiden processen vinden om de beurt plaats en niet simultaan zoals bij de VN.”
CX en UX
Bij die omzettingen zijn zowel CX als UX van belang, aldus Failenschmid: UX als je de toepassing als klant of medewerker gebruikt, CX als je de toepassing als klant hebt gebruikt. “Klanten die voor de eerste keer met deze technologie te maken krijgen – denk aan het scenario ‘ik kan niet uitloggen bij mijn e-scooter’ – zijn niet gefocust op het luisteren naar instructies. Dus misschien moet je de instructie pas geven nadat de klant klaar is met het formuleren van zijn of haar vraag.
De klant zal ook moeten leren hoe het ‘om de beurt’ mechanisme werkt. Allereerst door de klant aan het begin van de dialoog te laten weten dat zijn of haar input wordt omgezet naar een andere taal. Daarnaast door aan te geven wanneer de input van de klant wordt verwerkt. “Dat kan door zogenaamde ‘noise tokens’ zoals ‘ik heb uw informatie ontvangen’, ‘ik ga even voor u kijken’, ‘ogenblikje’ of door algemene achtergrondgeluiden,” legt Failenschmid uit. “Maar je kunt ook na je uitleg iedere keer nadat de klant iets heeft gezegd een pieptoontje laten horen, al dan niet gevolgd door een korte mededeling zoals ‘een ogenblik’ of ‘dit wordt nu vertaald’. Kortom, de inzet van RTT vereist dat je de klant uitleg geeft over het proces.
UX voor de medewerker
Niet alleen de klant moet leren omgaan met deze toepassing, ook de medewerker moet anders werken dan normaal. Op de eerste plaats moet de medewerker leren omgaan met tekst-gebaseerde communicatie. Waar je bij chat nog in telegramstijl kunt formuleren (‘OK’ of ‘ga ik nakijken’), is de tekst die de agent bij RTT invoert het materiaal dat de voicebot moet omzetten naar spraak die wordt afgespeeld richting de klant. En waar je bij e-mail nog kunt corrigeren als je iets overleest, moet bij RTT de input van de medewerker zo snel mogelijk worden omgezet naar spraak.
Een tweede obstakel is de informatie waarmee de agent moet werken. Als de klant geen duidelijke zin formuleert, kan de vertaalmodule komen met een onduidelijk vertaalresultaat. De vraag is dan of de agent daar inhoudelijk op moet reageren met een antwoord of juist om verduidelijking moet vragen.
Ook door de agent verkeerd gespelde woorden kunnen impact hebben op de vertaling. In hoeverre je tikfouten altijd moet herstellen, is tricky, maar agents hebben in ieder geval de neiging om hun eigen tikfouten te corrigeren, vertelt Failenschmid.
Bij de omzetting naar een andere taal moet je ook rekening houden met semantische en culturele verschillen, zelfs binnen een taalgebied. Zo is er een verschil tussen Nederlands en Vlaams-Nederlands. Failenschmid spreekt dan ook liever over ‘localisation’ dan over ‘translation’. Lokalisatie is het geschikt maken van producten zoals games, software, websites en audiovisueel materiaal voor gebruik in andere taalgebieden.
Voice-to-voice en agent assist
Uit de ervaring van Sabio blijkt dat als je de agent zoveel mogelijk ondersteunt bij het formuleren van het antwoord richting de voicebot, de snelheid van de interactie toeneemt. Bijvoorbeeld door kant en klare antwoord-snippets aan te bieden: ‘quick replies’, een vorm van agent-assist. (tekst loopt door onder afbeelding)
Een andere oplossing is al deze tekstgerelateerde uitdagingen te omzeilen, bijvoorbeeld door de agent niet te laten werken met tekstinvoer maar met zijn of haar eigen spraak – en deze vervolgens om te zetten.
Rutger Hugen (solutions architect Sabio Nederland) reageert: “Er is al een PoC gerealiseerd voor deze variant waarbij de agent met spraak reageert (voice-to-voice) op datgene wat er op het scherm staat. Tot nu toe blijkt echter uit de praktijk dat het tekstgebaseerde model inclusief agent assist op dit moment het snelste werkt, zeker wanneer de medewerker niet echt hoeft te tikken. Tekstgebaseerde interactie (vanuit de agent) heeft ook een voordeel, aldus Hugen. Het vergroot de consistentie in de antwoorden; met behulp van generatieve AI zou je de input van de agent ook nog kunnen bijsturen richting de juiste tone of voice. Maar het kan zijn dat we in de nabije toekomst ‘tekst naar spraak’ inwisselen voor ‘spraak naar spraak’.”
Operationele implicaties
Een van de meest opvallende veranderingen zal de AHT zijn. ‘Tikken’ gaat langzamer dan spraak en de vraag is of je deze manier van klantcontact nog als ‘call’ moet beschouwen. Bij de inrichting van de agent desktop zal je verder goed bedenken wat het beste werkt voor de medewerker: de volledige dialoog op het scherm? Of alleen informatie die betrekking heeft op de fase waarin het gesprek verkeert en op de intent van de klant? Failenschmid: “Je wil de agent waar mogelijk snelle toegang tot relevante informatie geven.”
Wie aan de slag wil met RTT moet dus allerlei processen goed op orde hebben, waaronder kennismanagement en AI-beleid dat bijvoorbeeld zorgt voor guardrails. Het is moeilijk voorstelbaar dat met al deze kanttekeningen en aandachtspunten RTT werkt in de praktijk. Maar Failenschmid verzekert: het werkt op dit moment bij deelscooterbedrijf Bird, dat met een klantenserviceteam van Transcom in India gebruikers van deelscooters in allerlei Europese steden bedient. “Inderdaad, je moet veel op orde hebben, net als bij het aansturen van gewone agents en het bewaken van de kwaliteit van gewone agents,” aldus Failenschmid, “AI is net als een agent van vlees en bloed dat je moet trainen en begeleiden.”
Vaak of lang oefenen baart kunst
Tot slot: zoals bij elke AI-aangedreven oplossing wordt ook deze beter naarmate er meer contacten mee zijn afgewikkeld. Voor deelscooterbedrijf Bird is het voicekanaal een escalatiemodel. Hugen legt uit dat Bird in elk taalgebied te maken heeft met een relatief klein volume. “Hoe ga je persoonlijk contact regelen als je in iedere taal maar een klein contactvolume hebt? Als je gebrek hebt aan volumes, zal je het voor wat betreft het finetunen moeten hebben van een langere periode. Dat is ook de inzet van een partnership: doorlopend verbeteren.”
(Ziptone/Erik Bouwer)