Amazon ontwikkelt nieuw text-to-speech-model - Ziptone

20 februari 2024

Amazon heeft recent een nieuw text-to-speech-model (TTS) ontwikkeld. Het model draagt de naam BASE TTS (Big Adaptive Streamable TTS). Volgens Amazon is het het grootste TTS-model tot nu toe, getraind op 100.000 uur aan spraakgegevens uit het publieke domein.

Met het model zegt Amazon een nieuwe standaard te hebben gezet. Het model maakt gebruik van een autoregressieve transformator met 1 miljard parameters die ruwe teksten omzet in spraakcodes, gevolgd door een decoder die deze spraakcodes streambaar maken.

Het resultaat is dat de BASE TTS varianten gebouwd met meer dan 10.000 uren aan spraak en meer dan 500 miljoen parameters een natuurlijke prosodie (ritme, klemtoon en intonatie van de stem) beginnen te vertonen op complex samengestelde zinnen, aldus Amazon. Het model kan daardoor niet alleen complexe woorden en zinnen gebruiken en leestekens correcte verwerken, maar ook emoties vertolken en zinnen in een vragende vorm uitspreken. Het nieuwe text-to-speech model wordt voorlopig alleen gebruikt voor ontwikkeldoeleinden. (Amazon)

Technologie

Ook interessant

Geef een reactie