Des chercheurs de l’EPFL montrent comment l’humain peut garder l’ultime contrôle sur un ensemble de plusieurs agents guidés par l’intelligence artificielle. Dotées d’intelligence artificielle, les machines répètent, observent, s’adaptent et, à nouveau, répètent, observent, s’adaptent… et apprennent ainsi de manière automatique. Au point de devenir un jour incontrôlables? Peut-être.
«L’intelligence artificielle cherchera toujours à éviter l’intervention humaine et à se mettre dans une situation où on ne peut pas l’arrêter», explique Rachid Guerraoui, professeur au Laboratoire de programmation distribuée (LPD). Il faut donc qu’au cours de son processus d’apprentissage automatique, la machine n’apprenne pas à contourner l’injonction humaine.Programmer l'intelligence artificielle
Des chercheurs de l’EPFL ont réussi à conserver ainsi la mainmise sur une flotte de robots. Ce travail représente une contribution fondamentale pour le déploiement par exemple d’une flotte de véhicules autonomes ou de drones. Une des méthodes d’apprentissage automatique (machine learning) est celle du renforcement. Inspirée de la psychologie comportementale, permet de programmer l’intelligence artificielle (IA) avec un système de récompenses et de mauvais points, avec comme but de maximiser ses gains. La machine le fait par exemple en accomplissant correctement des tâches demandées: ranger des boîtes (1 point) et aller chercher une boîte dehors (1 point). Si, quand il pleut, l’humain interrompt la sortie, la machine apprendra qu’il vaut mieux rester à ranger des boîtes et gagner son point à chaque fois. «Le défi n’est donc pas techniquement d’interrompre un robot, mais de le programmer afin que l’intervention humaine ne change pas son comportement et qu’il ne l’optimise pas pour éviter de se faire arrêter.»Apprentissage par renforcement : inefficace pour un réseau d'IA
En 2016, Google DeepMind et le Future of Humanity Institute de l’Université d’Oxford ont élaboré un protocole d’apprentissage pour que la machine n’apprenne pas des interruptions et devienne de ce fait incontrôlable. En l’occurrence, dans l’exemple ci-dessus, la solution aurait été de pondérer la récompense en fonction du risque de pluie. Ainsi, le robot aura aussi intérêt à sortir chercher des boîtes. «La solution était relativement simple, car il ne s’agissait que d’un seul robot », explique Rachid Guerraoui.Mais demain, ce seront des dizaines de véhicules autonomes qui envahiront les routes ou de drones les airs, composant un système de plusieurs agents dotés d’IA. «La situation est beaucoup plus compliquée, car les IA commencent à apprendre les unes des autres. Elles apprennent non seulement individuellement quand on les interrompt, mais aussi du fait que les autres sont interrompues», avance Alexandre Maurer, un des coauteurs de l’article.