Drie seconden spraak voldoende voor nabootsing stem - Ziptone

11 januari 2023

Microsoft heeft een nieuwe tool ontwikkeld waarmee het karakteristieke stemgeluid van een individu kan worden nagebootst. Het gaat om een experimentele versie van het text-to-speech AI model VALL-E, dat genoeg heeft aan drie seconden stemgeluid (bijvoorbeeld de uitspraak van een korte zin) om dat geluid te imiteren. De oplossing kan daarna andere zinnen uitspreken op dezelfde toon, met dezelfde stem. Ook zijn de ontwikkelaars erin geslaagd om op basis van een stemgeluid emotie toe te voegen zoals vrolijk lachend of boos. Daarna is de invoer van een stuk tekst voldoende om het stemgeluid te produceren.

Microsoft maakt hierbij gebruik van een neural codec language model, waarbij de manier waarop iemand stem klinkt, in kleine stukjes wordt opgebroken en gesynthetiseerd.

De oplossing maakt het mogelijk om in geluidsfragmenten iemand iets te laten zeggen wat hij/zij niet heeft gezegd, zonder dat een zo’n wijziging opvalt. De onderzoekers zijn zich bewust van de risico’s van misbruik – de vraag is bijvoorbeeld of dit impact heeft of gaat krijgen op de bruikbaarheid van stembiometrie – en hebben daarom nog geen bruikbare testversie online staan. Op Github staan wel verschillende voorbeelden van hoe de tool werkt.

Technologie

Ook interessant

Geef een reactie