Afgelopen week heeft Meta een nieuwe AI-oplossing gelanceerd die spraak in ruim 100 talen near realtime kan vertalen. SEAMLESSM4T werkt op basis van directe omzetting, aldus Singularity Hub.
Tot nu toe wordt bij spraakvertalen een stapsgewijze aanpak gehanteerd. Het vertalen an sich gebeurt vrijwel altijd op basis van in tekst omgezette spraak. Maar spraakherkenning heeft vaak nog moeite met een goed inhoudelijk begrip, met accenten/dialecten en met afwijkende stemmen. In de meeste oplossingen voor spraakvertalen is latency nog een beperking.
De nieuwe AI van Meta, SEAMLESSM4T genaamd, zet spraak direct om in spraak. De oplossing van Meta zet met spraaksynthese woorden en zinnen uit 101 verschillende om in 36 andere talen. Het algoritme zou 23 procent nauwkeuriger zijn dan bestaande topmodellen.
Volgens Tanel Alumäe (Tallinn University of Technology, maar niet beytrokken bij het Meta-project) gaat het om een zogenaamd foundational model waar derden op kunnen voortbouwen om het verder te ontwikkelen, bijvoorbeeld voor specifieke vakgebieden of doelgroepen.
Om het nieuwe model representatiever te maken voor ook minder voor de hand liggende talen is geb ruik gemaakt van parallelle datamining. Hierbij worden audiofragmenten in de ene taal met bijpassende ondertitels in een andere taal bij elkaar gezocht. Het team van Meta verzamelde ongeveer 443.000 uur aan audio met bijpassende tekst, wat resulteerde in ongeveer 30.000 uitgelijnde spraak-tekst paren.
Latency nog niet opgelost
Hoewel het nieuwe model van Meta niet meer stapsgewijs te werk gaat (omzetting van spraak naar tekst, vervolgens vertalen, daarna omzetten naar spraak) wordt er wel gebruik gemaakt van verschillende gespecialiseerde modules. Er zijn modules die de invoer van tekst en spraak verwerken, andere modules zorgen voor de uitvoer. Het vertaalgedeelte van de AI is getraind op 4,5 miljoen uur gesproken audio in meerdere talen.
De latency van het model is nog steeds enkele seconden, aldus Singularity Hub, maar het model is wel veel nauwkeuriger met een gestandaardiseerde test en kan beter omgaan met achtergrondgeluid en stemmen van verschillende sprekers, Ook blijft spraak met veel accenten een uitdaging. (Singularity Hub)
Technologie


