OpenAI brengt GPT-Realtime uit: speech-to-speech oplossing

OpenAI brengt GPT-Realtime uit: speech-to-speech oplossing

by Ziptone
29 augustus 2025

Beeld: ChatGPT/AI

OpenAI heeft GPT‑Realtime gelanceerd, een end-to-end speech model zonder tussentijdse omzetting naar tekst. Volgens OpenAI is GPT‑Realtime ontwikkeld met oog op gebruik in klantenservice, voor persoonlijke assistenten en binnen educatie.

 

Eerder kwam OpenAI al wel met spraaktoepassingen (waaronder Whisper, TTS, Voice mode in ChatGPT), maar ging het om oplossingen waarbij tussentijdse omzetting naar tekst noodzakelijk waren.

GPT‑Realtime werd in mei 2024 aangekondigd en is nu in productie beschikbaar. GPT‑Realtime verwerkt spraak in één stap en volgens OpenAI zou dat de latency aanzienlijk moeten verminderen. OpenAI doet echter geen mededelingen over de haalbare latency. Wel wordt geclaimd dat het model goed kan omgaan met subtiele elementen van spraak, zoals intonatie, pauzes, emotie en zelfs non‑verbale signalen zoals lachen.

Demo

Daarmee levert GPT‑Realtime natuurlijker klinkende spraak met nuance in intonatie, tempo en emotie. Het model kan ook instructies opvolgen zoals ‘spreek snel en professioneel’ of ‘spreek in een empathische Franse toon’. OpenAI introduceert tevens twee nieuwe stemmen, Marin en Cedar, en vernieuwt acht bestaande stemmen door ze van meer expressie te voorzien. In het nieuwsbericht van OpenAI staat ook een demo die de mogelijkheden laat horen.

Volgens OpenAI scoort GPT-Realtime beter op verschillende benchmarks ten opzichte van eigen voorgangers, zowel op het gebied van begrip en intelligentie als op gesprekshantering en contextueel begrip. Ook kan het model overweg met afbeeldingen, waardoor je een dialoog kunt aangaan over wat het model ziet. En tot slot ondersteunt het model SIP-telefonie, wat telefoongebaseerde voice agents mogelijk maakt.

Latency

Volgens een technisch verslag van het platform latent.space is de zogeheten time‑to‑first‑byte via de Realtime API (van OpenbAI) gemiddeld ongeveer 150 milliseconden voor klanten in de Verenigde Staten; daar komt de latency van GPT-Realtime nog bovenop en die zou voor een werkbare oplossing aanzienlijk lager moeten zijn dan 500 milliseconden. Hamvraag is of GPT-Realtime dat waar kan maken.

Bij speech-to-speech-oplossingen moet qua verwerkingstijd rekening worden gehouden met end pointing (bepalen wanneer de toepassing aan het werk kan – dit vraag om een bepaalde stiltetijd om te beslissen wanneer er van beurt kan worden gewisseld), buffering (nodig voor een stabiele audiostroom), netwerkvertraging, verwerking van de audio en het genereren van output.

Welke latency is aanvaardbaar?

In traditionele VoIP-systemen wordt een latency van 20–150 milliseconden als algemeen aanvaardbaar gezien; tot 200 milliseconden wordt door mensen als natuurlijk ervaren. Bij waarden tussen de 200 en 500 milliseconden ervaren mensen wel enige vertraging maar wordt deze als acceptabel gezien. Hogere waarden worden als traag ervaren, al kunnen waarden tot 1000 milliseconden in specifieke toepassingen nog werkbaar zijn. Waarden daarboven (1 seconde en meer) worden als hinderlijk ervaren. (OpenAI, Ziptone)

Follow by Email
Whatsapp
LinkedIn
Share
Technologie

Geef een reactie

Je e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

Top