GAIA is een benchmark, ontwikkeld door onderzoekers verbonden aan META, voor algemene AI-assistenten. Hiermee kunnen de competenties van AI-agents worden vergeleken.
De test bevat 450 vragen met ondubbelzinnige antwoorden, waarvoor verschillende niveaus van hulpmiddelen en autonomie nodig zijn om ze op te lossen. De test is onderverdeeld in 3 niveaus, waarbij niveau 1 moet kunnen worden doorbroken door zeer goede LLM’s en niveau 3 een sterke sprong in modelcapaciteiten aangeeft. Het doorlopen van de test veriest een aantal fundamentele vaardigheden, zoals redeneren, omgaan met meerdere modaliteiten, surfen op het web en vaardigheid in het gebruik van hulpmiddelen.
Terug naar startpagina woordenboek
