Reinforcement learning from human feedback (RLHF) (ook wel aangeduid met alleen reinforcement learning) is een machine learning-techniek waarbij een ‘beloningsmodel’ wordt getraind met directe menselijke feedback. Door bepaalde uitkomsten als ‘beter’ te kwalificeren dan andere uitkomsten kunnen de prestaties van een kunstmatige intelligentie-agent of een LLM worden geoptimaliseerd.
Zie ook LLM
Terug naar startpagina woordenboek
