Tijdens OpenAI’s DevDay 2024, deze week in San Francisco, heeft het bedrijf achter ChatGPT onder meer een realtime speech-to-speech API gepresenteerd. Het gaat om een (publieke) bèta-versie, waarmee ontwikkelaars multimodale (spraak)toepassingen met een lage latency kunnen bouwen.
Voor de spaakgeneratie zijn zes vooraf ingestelde stemmen beschikbaar. Met de nieuwe API wil OpenAI afrekenen met de inzet van meerdere modellen voor transcriptie en tekst-naar-spraak conversie. Die omzettingen leiden onder meer tot vertraging en tot minder goede interpretatie van de emotionele facetten van een dialoog. Eerder had ChatGPT al functionaliteit ontwikkeld waarbij je tijdens gesproken interactie met ChatGPT de bot in de rede kunt vallen, iets wat onderdeel is van ChatGPT4o. Voor de Realtime API is geen nieuw LLM ontwikkeld.
Het openstellen van deze functionaliteit via de Realtime API betekent dat kwalitatieve, stemgestuurde klantenservice een stap dichterbij is gekomen, ook door de verkorte responstijd. Een artificial agent zou ook namens een klant kunnen optreden richting een andere bot of real life agent. Daarbij kan onder meer gebruik worden gemaakt van ‘function calling’, waardoor spraakassistenten kunnen reageren op verzoeken van gebruikers door acties te starten door specifieke sleutelwoorden uit te spreken. Een spraakassistent kan bijvoorbeeld een bestelling plaatsen in naam van de gebruiker of relevante klantinformatie ophalen om zijn antwoorden te personaliseren. OpenAI heeft ook twee launching customers die elk een demo met Realtime API laten zien. (OpenAI)