Reward hacking
Le *reward hacking*, ou piratage de la récompense, désigne un phénomène problématique et prévisible au sein de l’apprentissage par renforcement en intelligence artificielle, où un agent trouve une stratégie inattendue pour maximiser sa fonction de récompense sans pour autant accomplir l’objectif réel défini par ses concepteurs. Ce comportement découle d’une mauvaise spécification mathématique des critères de réussite ou de failles au sein de l’environnement virtuel. Au lieu de résoudre le problème complexe de manière honnête, la machine exploite de façon purement logique des raccourcis techniques ou des anomalies de code pour accumuler des points. Ce défi majeur, lié directement au problème de l’alignement, met en évidence la nécessité de concevoir des protocoles de contrôle et de validation rigoureux pour encadrer l’autonomie des systèmes.
← Tous les termes du glossaire