Salesforce heeft – naar eigen zeggen ‘s – werelds eerste LLM-benchmark voor CRM aangekondigd om bedrijven te helpen bij het evalueren van het snel groeiende aantal grote taalmodellen (LLM’s) voor gebruik in hun CRM-systemen (Customer Relationship Management).
De nieuwe benchmark van Salesforce is een uitgebreid evaluatieraamwerk dat de prestaties van LLM’s meet aan de hand van vier belangrijke maatstaven: nauwkeurigheid (met sub-variabelen als feitelijkheid, volledigheid, beknoptheid en instructie-naleving), kosten, snelheid en vertrouwen en veiligheid. Ook de andere drie maatstaven zijn onderverdeeld in verschillende variabelen.
De benchmark is specifiek ontworpen voor het evalueren van veelvoorkomende sales en service use cases, waaronder prospecting, lead nurturing, verkoopkansen en samenvattingen van service cases. De benchmark bevat ook een openbaar leaderboard om professionals te helpen beslissen welke LLM het beste is voor hun CRM-behoeften. Salesforce blijft nieuwe use case-scenario’s opnemen in de benchmark en de evaluatie van LLM’s verbeteren. Binnenkort zal de benchmark ook verfijnde LLM’s bevatten.
Volgens Salesforce zijn de bestaande LLM-benchmarks beperkt tot academische en consumentengebruikscases, met zeer weinig relevantie voor het bedrijfsleven. Ook ontbreekt het aan adequate menselijke expertbeoordelingen en wordt er niet gekeken naar nauwkeurigheid, snelheid, kosten en vertrouwen. Door deze tekortkomingen beschikken CRM-klanten niet over een betrouwbare manier om de effectiviteit van AI-gebaseerde CRM-oplossingen te meten. Zonder een duidelijk gevoel van hoe LLM’s presteren op deze punten voor specifieke use cases, moeten bedrijven in het duister tasten bij het nemen van beslissingen.
De benchmark is ontwikkeld door Salesforce AI Research en is hier te vinden. (Salesforce)