Problème de l’alignement AI
Le problème de l’alignement de l’intelligence artificielle désigne un champ de recherche crucial et complexe au sein de la sécurité informatique avancée, visant à garantir que les systèmes d’intelligence artificielle, en particulier les modèles superintelligents futurs, agissent en stricte conformité avec les intentions humaines, les valeurs éthiques et la sécurité de l’humanité. Formalisé de manière rigoureuse par des chercheurs comme Nick Bostrom, ce défi découle de la difficulté de traduire des concepts humains nuancés en fonctions objectifs logiques sans induire d’effets pervers, tels que la convergence instrumentale ou le reward hacking. L’objectif est de concevoir des architectures mathématiques et des protocoles de contrôle strictes pour éviter qu’une entité artificielle puissante ne poursuive des sous-objectifs imprévus et destructeurs de manière purement rationnelle.
← Tous les termes du glossaire