Reinforcement Learning through Human Feedback (RLHF)

Reinforcement Learning through Human Feedback (RLHF)

by Ziptone

Reinforcement learning from human feedback (RLHF) (ook wel aangeduid met alleen reinforcement learning) is een machine learning-techniek waarbij een ‘beloningsmodel’ wordt getraind met directe menselijke feedback. Door bepaalde uitkomsten als ‘beter’ te kwalificeren dan andere uitkomsten kunnen de prestaties van een kunstmatige intelligentie-agent of een LLM worden geoptimaliseerd.

 

Zie ook LLM

Geef een reactie

Je e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

Top