GPT-Realtime-Translate is een nieuwe oplossing uit de stal van OpenAI. Dee functie kan gesprekken live vertalen terwijl iemand praat, zonder merkbare vertraging, aldus het bedrijf.
Het systeem ondersteunt meer dan zeventig talen als invoer en kan vertalen naar dertien talen als output, wat het onder meer bruikbaar maakt voor klantenservice.
De oplossing helpt ontwikkelaars bij het bouwen van live meertalige spraakcommunicatie, waarbij iedere deelnemer in zijn of haar voorkeurstaal kan spreken en het gesprek in realtime vertaald te horen krijgt, inclusief realtime transcripties. OpenAI geeft geen cijfermatige details over de latency, maar duidt die systematisch aan met low latency en benadrukt dat het systeem het spreektempo van de spreker bijhoudt. Het bedrijf raadt developers aan om zelf de latency van specifieke toepassingen te meten.
Ook presenteerde het bedrijf GPT-Realtime-Whisper, een nieuwe spraak-naar-tekstfunctie die gesprekken live kan transcriberen terwijl ze plaatsvinden. In feite verandert OpenAI hiermee audio direct in tekst terwijl een gesprek nog bezig is.
Volgens OpenAI verschuift voice AI hiermee van simpele spraakcommando’s naar systemen die daadwerkelijk kunnen meedenken tijdens een gesprek. De technologie moet niet alleen luisteren, maar ook redeneren, vertalen, transcriberen en uiteindelijk acties uitvoeren terwijl een conversatie bezig is.
GPT-Realtime-2, GPT-Realtime-Translate en GPT-Realtime-Whisper zijn beschikbaar via de Realtime API. GPT-Realtime-2 kost $32 per 1 miljoen audio-invoertokens ($0,40 voor gecachte invoertokens) en $64 per 1 miljoen audio-uitvoertokens. GPT-Realtime-Translate kost $0,034 per minuut. GPT-Realtime-Whisper kost $0,017 per minuut.
(OpenAI)
Technologie


