Persona vectoren geven grip op karaktertrekken van AI in klantcontact

by Ziptone

Persona vectoren geven grip op karaktertrekken van AI in klantcontact

by Ziptone

by Ziptone
persoonlijkheidskenmerken

Beeld: ChatGPT/AI

Onderzoekers hebben een nieuwe methode ontwikkeld om persoonlijkheidskenmerken in grote taalmodellen (LLM’s) te detecteren, voorspellen en beïnvloeden. De techniek kan van grote waarde zijn voor toepassingen in klantcontact, maar levert ook nieuwe risico’s op. 

 

De centrale vraag van de onderzoekers (afkomstig van Anthropic, University of Texas, Austin, UC Berkeley, Truthful AI en Constellation) was hoe je persoonlijkheidskenmerken van een AI-assistent objectief zou kunnen meten en besturen. Denk aan haatdragend of juist dwepend, maar ook aan de neiging tot ‘hallucineren’.

In hun artikel, waarvan een voorpublicatie is verschenen op Arxiv, concluderen ze dat persoonlijkheidskenmerken van AI-assistenten meetbaar, voorspelbaar en bestuurbaar zijn via zogeheten persona vectoren in de zogenaamde activatieruimte van taalmodellen.

Persona vectoren

Die activatieruimte is de wiskundige ruimte waarin de toestanden van een taalmodel worden gerepresenteerd tijdens het verwerken van tekst. Het is te beschouwen als het denkraam van het model dat aan de hand van gecodeerde patronen bepaalt hoe betekenis, taalstijl en gedrag tot stand konen. Daarbij zijn bepaalde gedragingen van het model stabiel en meetbaar, zoals ook menselijke trekken dat kunnen zijn. Wie de persona vectoren manipuleert, verandert relatief eenvoudig met welke persoonlijkheidskenmerken de output tot stand komt.

De onderzoekers hebben deze persona vectoren als het ware geïsoleerd uit LLM’s en vervolgens deze vectoren ingezet om bepaalde eigenschappen op te wekken of juist te onderdrukken. Door voor en na de interventies te meten kregen ze zicht op de werking van persona’s in LLM’s.

Gedragsverandering

Hun bevindingen wezen er op dat relatief kleine ingrepen in die persona vectoren grote en deels ook ongewenste gedragsverschuivingen veroorzaken. Denk aan een chatbot die na finetuning op een bepaalde dataset anders reageert. De relatief kleine aanpassingen zijn overigens wel complexe technische processen, zoals inference-time steering en preventive steering.

De onderzoekers vonden ook uit dat voor het finetunen van een bot het manipuleren van de persona vectoren veel effectiever is dan bijsturen op basis van prompts of het inzetten van filters.

(On)gewenst gedrag vaststellen en corrigeren

Het onderzoek biedt zicht op nieuwe mogelijkheden voor CX- en AI-specialisten als het gaat om de hoogwaardige inzet van AI-chatbots en virtuele assistenten in klantenservice en contactcenters.

De keerzijde van de techniek is dat de knoppen om aan de persoonlijkheidskenmerken te draaien ook kwaadschiks kunnen worden ingezet. Zo kunnen bijvoorbeeld ogenschijnlijk positieve persoonlijkheidskenmerken met verhulde bedoelingen worden ingezet. De methode zet de poort open voor manipulatieve chatbots, maar dit is niet door de onderzoekers benoemd.

De persona vector-methode biedt een nieuwe en geautomatiseerde manier om (gewenst en ongewenst) AI-gedrag meetbaar, controleerbaar en voorspelbaar te maken of juist te voorkomen – denk aan de neiging tot hallucineren of op een overdreven manier meeleven of instemmen met een gesprekspartner. Ook maakt het onderzoek inzichtelijk hoe programmeurs datasets vooraf kunnen analyseren op data die gedragsverschuivingen van bots veroorzaken. Dit soort ingrepen zouden onderdeel kunnen zijn van de governance die in toenemende mate wordt vereist bij de inzet van AI-aangedreven chatbots.

De volledige studie is beschikbaar via Arxiv

Follow by Email
Facebook
X (Twitter)
Whatsapp
LinkedIn
Share

Ook interessant

Featured, Kennisbank, Technologie
Top