Meta lanceert multimodaal AI model SeamlessM4T - Ziptone

25 augustus 2023

Meta heeft SeamlessM4T aangekondigd, een multimodaal AI-model voor spraak- en tekstvertalingen. Dit neuraal netwerk kan tekst-naar-spraak, spraak-naar-tekst, spraak-naar-spraak en tekst-naar-tekst vertalingen uitvoeren voor ‘tot wel 100 talen’, aldus Meta.

Meta geeft SeamlessM4T vrij onder een creative commons onderzoekslicentie (CC BY-NC 4.0) waarmee ontwikkelaars kunnen voortbouwen op het werk. Ze geven ook SeamlessAlign vrij, dat Meta ‘de grootste open multimodale vertaaldataset tot nu toe’ noemt. Dat zal waarschijnlijk een kickstart zijn voor het trainen van toekomstige AI-vertaalmodellen van andere onderzoekers. Meta heeft een uitgebreide technische beschrijving van de werking gepresenteerd.

Demo

SeamlessM4T zou – naast ‘klassieke’ tekst-naar-tekst vertaling zoals Google Translate ook kan – kunnen worden gebruikt voor spraakherkenning, spraak-naar-tekst vertaling (gesproken audio omzetten in tekst in een andere taal), spraak-naar-spraak vertaling en tekst-naar-spraak vertaling (voer een tekst in en deze wordt uitgesproken in een andere taal). Deze functies zouden beschikbaar zijn voor bijna 100 talen als het gaat om tekstvertalen; de spraakuitvoerfuncties ondersteunen ongeveer 36 uitvoertalen waaronder het Nederlands. In de demo-omgeving kan je in een willekeurig taal iets inspreken en het laten omzetten in tekst en spraak in een andere taal.

In september bracht OpenAI zijn eigen open source spraak-naar-tekst vertaalmodel uit, Whisper genaamd, dat spraak in audio kan herkennen en vertalen naar tekst met een hoge mate van nauwkeurigheid. (Meta/Ziptone)

Technologie

Demo

Ook interessant

Geef een reactie