Opbrengsten van AI? Check. Maar wat zijn de kosten van AI in klantcontact?

by Ziptone

Opbrengsten van AI? Check. Maar wat zijn de kosten van AI in klantcontact?

by Ziptone

by Ziptone

Beeld: Ziptone/AI

In de klantcontactsector overheerst het narratief dat de inzet van GenAI al snel leidt tot kostenbesparingen door bijvoorbeeld een kortere gemiddelde gespreksduur. Minder duidelijk is wat daar tegenover staat aan kosten. Want telkens als een AI-tool iets doet, rinkelt ergens een kassa. Ziptone sprak met zowel leveranciers als eindgebruikers om zicht te krijgen op de AI-kosten in de praktijk.

 

In dit artikel:

  • inzicht in de kosten van AI is vaak beperkt.
  • er spelen veel verschillende soorten AI-kosten mee;
  • de AI-markt is onvolwassen als het aankomt op pricing.

 

Een tijdje terug luidde Gartner de alarmbel: de kosten van AI zouden op termijn de pan uitrijzen. De gigantische investeringen in AI kunnen alleen worden terugverdiend als de tarieven van LLM-aanbieders omhooggaan, zo was de achterliggende gedachte. Gartner voorzag dat een gesprek afgewikkeld door AI zelfs duurder zou worden dan het uurtarief van een menselijke agent uit een lagelonenland.

Besparingen vaak duidelijk

Tegenover de heldere opbrengsten van AI in klantcontact (een kortere gemiddelde gespreksduur, of minder gesprekken) staan de implementatiekosten en de verbruikskosten voor tokens, de eenheid waarmee AI-toepassingen een beroep doen op de CPU’s. De cruciale vraag is: hoe hoog valt de maandelijkse AI-factuur uit, en waardoor wordt die bepaald?

We kunnen ons voorstellen dat de contactcentermanager vooraf, of aan het eind van het jaar, wil weten: wat kost deze toepassing per interactie? Welke kosten zitten in licentie, gebruik en beheer? Welke kosten zijn vast en welke variabel? Wie bewaakt gebruik, kwaliteit en compliance? En wat is de terugverdientijd per use case?

Inzicht in de kosten is beperkt

Beeld: Ziptone/AI

Ziptone ging daarom op onderzoek uit. Uit een rondgang van Ziptone blijkt dat niet zozeer de kosten zelf gevoelig liggen, maar het gebrek aan inzicht erin. Gebruikers hebben geen goed inzicht in zowel de opbouw als de omvang van de kosten van AI-toepassingen. De meeste experts waar Ziptone mee sprak wilden dan ook alleen op anonieme basis meewerken aan dit artikel.

De waarschuwing van Gartner over oplopende kosten werd hier en daar sceptisch ontvangen, maar de zorgen over onverwacht hoge kosten voor nieuwe technologie komen gezien dat gebrek aan inzicht niet uit de lucht vallen. Grip op cloudkosten is voor veel CIO’s nog steeds een uitdaging.

“Neem alle verschillende soorten kosten mee”

Experts waar Ziptone mee sprak, pleiten voor een duidelijk onderscheid tussen enerzijds ontwikkelkosten en anderzijds gebruikskosten. Onder de ontwikkel- en bouwkosten vallen uiteenlopende zaken: van consultancy tot en met finetuning en training. Die kosten worden niet altijd meegerekend in de business case. Ook de opbouw van de verbruikskosten van AI-gebaseerde toepassingen is zelden transparant en dus niet altijd bekend. De implementatie van AI mag dan (volgens een deel van de experts) een softwareproject zijn, tijdens de run worden aan AI andere eisen gesteld die de kosten kunnen opdrijven. Ook wezen de experts op het gebrek aan inzicht in omzetderving (churn) die toe te schrijven is aan de inzet van AI. Voor de kosten geldt in veel gevallen dat de facturen op centraal niveau – denk aan de IT-organisatie – binnenkomen.

Beeld: Ziptone

Bij de implementatiekosten moeten managers rekening houden met integraties met het contactcenterplatform, CRM en kennisbank, het opschonen en geschikt maken van content voor retrieval of prompting, testen in verschillende scenario’s, security- en privacychecks, promptontwikkeling, training van teamleiders en agents, en de inrichting van escalatiepaden.

Vooral bij chatbot- en voicebottoepassingen kunnen deze implementatiekosten oplopen, omdat daar niet alleen techniek, maar ook klantreis, tone of voice en foutafhandeling goed moeten worden ingericht. Het invoeren van geautomatiseerde samenvattingen en geautomatiseerde QM zijn eenvoudiger te implementeren en kunnen daarom een logischer vertrekpunt zijn.

De kosten voor de ‘run’ zijn meer dan alleen de token- of modelkosten. Ook kosten voor monitoring, hertraining of bijsturing van prompts, onderhoud van kennisbronnen, evaluatie van outputkwaliteit, support vanuit IT of operations en eventuele extra licentiekosten van leveranciers komen erbij.

Bij toepassingen die het directe klantcontact raken, zoals selfservicebots of agent assist, kunnen deze kosten sneller oplopen dan vooraf bedacht: dit soort toepassingen moet voortdurend worden aangepast aan nieuwe klantvragen, processen en productwijzigingen.

De governancekosten hebben te maken met het bewaken van de kwaliteit van de output van AI-toepassingen. Wie ziet wanneer een use case minder gunstig wordt dan gepland? Wie beoordeelt of samenvattingen, antwoordsuggesties of classificaties nog voldoende accuraat zijn? En wie stuurt bij als compliance, tone of voice of klantbeleving niet meer passend zijn? Tegenover lage kosten per interactie kunnen kosten voor herstelwerk en escalaties komen te staan. Een goede governance vraagt om periodiek evalueren en valideren en bijsturen. Dat kan ook betekenen dat ontwikkelteams weer terug naar de tekentafel moeten.

Kosten voor AI: verschillende kosten gestapeld

Je kunt de kosten voor AI ook bekijken als een stapeling van verschillende kostensoorten.

De kosten van AI beginnen bij de kostprijs die door partijen zoals Google, OpenAI, Anthropic en Mistral worden berekend. Deze spelers hanteren verschillende soorten tarieven, vrijwel altijd gebaseerd op een prijs per aantal tokens.

De tweede ‘kostenlaag’ wordt bepaald door de resellers en aanbieders van AI-toepassingen. Die hanteren vaak hun eigen tarieven (bijvoorbeeld kostprijs plus een opslag) en gebruiken daarbij hun eigen benamingen en afrekenmodellen op basis van tokens, conversaties, transacties, bundels enzovoorts. Dat bemoeilijkt vergelijken. Zo spreekt Genesys bijvoorbeeld over ‘experience tokens‘ (uitgedrukt in minuten), wat iets anders is dan een LLM-token, waarbij bepaalde AI-toepassingen juist weer standaard inbegrepen zijn in Genesys-pakketten.

Andere spelers beprijzen hun AI op basis van ‘opgeloste cases’, dus ongeacht de duur van de interactie. De tarieven kunnen ook gekoppeld zijn aan bepaalde licentiemodellen. De kosten van AI kunnen dan bijvoorbeeld afhangen van het aantal seats dat je afneemt bij een CCaaS-aanbieder. De kans is groot dat bij inbegrepen diensten gewerkt wordt met fair use policies. En weer andere spelers geven alleen prijzen voor AI-gebruik op basis van een offerte.

De uiteindelijke verbruikskosten

De derde laag van kosten ontstaat wanneer binnen AI-toepassingen verschillende functionaliteiten worden gebruikt. Denk aan geautomatiseerd samenvatten, waarvoor zowel spraakherkenning als LLM’s nodig zijn, maar vaak ook aanvullende services. Bijvoorbeeld om de gecreëerde samenvatting te kunnen wegschrijven in een CRM-oplossing, of om te zorgen voor guardrails en PII-removal – nodig om gevoelige informatie te verwijderen als voor de opslag daarvan geen gerechtvaardigd doel bestaat.

Hierbij zijn er verschillen in kostenopbouw en -hoogte. Voor samenvatten en transcriberen zijn de kosten per interactie laag; bij realtime agent assist nemen de variabele kosten al toe omdat het gebruik doorlopend kan zijn tijdens een gesprek; de inzet van een voicebot is relatief duur door spraak, realtime verwerking en soms meer complexe orkestratie; bij de inzet van agentic AI moet je rekening houden met extra kosten voor governance, validatie en risico-controls.

kosten

Beeld: Ziptone/AI

Een verhaal uit de praktijk: een verzekeraar – Een van de experts (naam bij de redactie bekend) waar Ziptone mee sprak, werkt bij een verzekeraar waar de inzet van AI zaken als personeelsinzet en besparingsdoelstellingen raakt. Bewust omgaan met kosten is voor de verzekeraar een van de belangrijkste wegen om de premie te kunnen beheersen. Daarom worden er bij dit bedrijf jaarlijks besparingsdoelstellingen geformuleerd; een deel daarvan is gericht op het vergroten van de efficiency in het klantcontact.

Voorafgaand aan een implementatie wordt eerst op kleine schaal getest met een PoC, die ook als basis dient voor een businesscase inclusief kosten en opbrengsten. Als er een besparing binnen de pilotgroep zichtbaar is, wordt de toepassing opgeschaald.

De inzet van verschillende AI-toepassingen in verschillende fasen en onderdelen van het contact tussen klant en medewerker zorgt voor een reductie in gespreksduur en in nawerktijd. Het gaat dan om onder meer herkenning van de intent van de klant, het aanreiken van best passende kennisartikelen tijdens het gesprek en geautomatiseerd samenvatten. Dat levert een totale besparing op van vijf tot zeven procent op de totale gespreksduur. Bij de verzekeraar is precies bekend wat iedere seconde AHT-reductie oplevert: de opbrengstenkant is inzichtelijk.

Maar aan de kostenkant ligt het gecompliceerder. Van de verschillende AI-toepassingen (een search in de kennisbank; het opnemen, transcriberen, samenvatten van een gesprek) is ruwweg bekend hoeveel tokens dit kost. Op het moment dat een AI-toepassing wordt opgeschaald, nemen de absolute kosten toe, maar nemen de gemiddelde kosten per token af; de leveranciers werken met staffels.

De verzekeraar neemt de tokens af in een bundel en er is geen exact inzicht in hoe deze per AI-toepassing worden ingezet. Wel zijn er knoppen waaraan gedraaid kan worden om de kosten te beheersen. Zo kan de frequentie waarmee de agent assist oplossing een beroep doet op de kennisbank, verlaagd worden. Ook kan besloten worden om niet de bestaande kennismanagementoplossing, maar de AI-toepassing het ‘kennis’-werk (zoeken in de bedrijfsdocumentatie) te laten doen.

Om de besparingen te optimaliseren is opschalen van het gebruik van AI – nu nog vrijblijvend voor medewerkers – essentieel. Ook wordt dat opschalen beschouwd als noodzakelijke stap om in de toekomst agentic AI te gaan toepassen. Als ‘autonome agents’ aan het werk gaan – denk aan het zelfstandig doorvoeren van mutaties – dan ontstaan er nieuwe processen die voor álle klantcontacten en álle klanten moeten gaan gelden.

Bij de verzekeraar wordt bij AI steeds gedetailleerder gekeken naar de totale kosten. Zo is duidelijk dat de inzet van AI ook vraagt om de inzet van verschillende interne specialisten op het gebied van cybersecurity en privacy. Ook de opslag van gesprekken (audio) en transcripten kost geld. Als de AI-toepassingen zich verder ontwikkelen richting agentic AI, worden deze rollen, net als die van risicobeheersing en modelvalidatie, nog belangrijker.

Tegenover een steeds beter beeld van de kosten staat ook een beter beeld van (bredere) opbrengsten zoals een snellere en hogere first time fix. Een agent die geen navraag hoeft te doen bij een collega, maar direct het juiste antwoord weet – draagt bij aan vertrouwen en een goede customer experience. En een kortere totale gespreksduur maakt het beroep dat de organisatie moet doen op een krappe arbeidsmarkt minder groot.

Onvolwassen markt

Volgens Jeroen Kromme (head of products & data, QuandaGo) is de AI-markt op het vlak van kosten nog onvolwassen. “Mij valt op dat als resellers en aanbieders van AI-diensten bedrijven hun best doen om transparant te zijn over tarieven van AI, er toch erg veel mitsen en maren zijn die de boel weer compliceren en ondoorzichtig maken.” Daardoor is het lastig inschatten hoeveel tokens je nodig hebt. Verschillende modellen verbruiken verschillende hoeveelheid tokens: denk aan API-calls, reasoning tokens en tokens nodig voor de werking van model context protocollen.

Daarnaast komen er steeds nieuwe modellen uit, die overigens doorlopend worden gebenchmarkt. Zelfs bij deze benchmarks is niet altijd duidelijk hoe de kostenvergelijkingen werken. Zo zijn sommige nieuwe modellen vaak efficiënter in token-verbruik, maar zijn de tokens per stuk dan weer duurder.”

Restaurantmenu

“Bij QuandaGo krijgen wij een factuur van LLM-providers voor al ons verbruik aan tokens. Met behulp van zogenaamde metering software kunnen wij alle soorten kosten toerekenen aan bepaalde toepassingen – tot op het niveau van speech-to-text. Onze klanten worden niet gefactureerd op basis van ‘kostprijs plus opslag’ maar op basis van een all-in tarief voor het verbruik van een bepaalde toepassing. Dat voorkomt dat fluctuaties in de kosten tot prijswisselingen leiden en klanten de kostprijstarieven zelf moeten monitoren, wat vrijwel ondoenlijk is. De fluctuaties in kostprijs beschouwen wij als ondernemersrisico. Bij QuandaGo brengen wij al onze AI-producten terug naar één prijs per conversatie. Neem als voorbeeld het geautomatiseerd genereren van een gesprekssamenvatting, wat bij ons bijvoorbeeld 15 cent kost.”

“Dit model is het beste te vergelijken met een restaurantmenu: de prijzen zijn inclusief alles, maar wat de kostprijs van een kilo pizzameel is, zie je daarin niet in terug. Het maakt het wel goed voorspelbaar en beheersbaar voor onze klanten.”

Die onvolwassenheid qua pricing heeft ook te maken met de onvolwassenheid van de technologie, stelt Kromme. “De bestaande modellen worden nog steeds verbeterd, maar die verbetering vlakt op een gegeven moment af. Daarnaast doen aanbieders hun uiterste best om marktaandeel te verwerven. Op het moment dat generatieve AI niet echt meer substantieel te verbeteren is, wordt het een commodity, net als bij cloud waarvan ook vrijwel niemand meer betwijfelt dat het goed werkt.”

(Ziptone/Erik Bouwer)

In deel 2 van dit artikel: hoe werkt token-facturering? Wat zijn gangbare tarieven per toepassing? Welke tools kan je  gebruiken om grip te houden op de AI-factuur?

Follow by Email
Whatsapp
LinkedIn
Share

Ook interessant

Featured, Kennisbank, Technologie

Geef een reactie

Je e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

Top