Gabriel Synnaeve - Programmation bayésienne et apprentissage pour les jeux vidéo multi-joueurs : une application à l’IA de jeux de stratégie

11:30
Wednesday
24
Oct
2012
Organized by: 
Gabriel Synnaeve
Speaker: 
Gabriel Synnaeve

Thèse préparée dans l’équipe E-Motion (Inria) à Grenoble et au LPPA (Collège de France) à Paris, sous la direction de Pierre Bessière.

Soutenance : dans le Grand Amphi de l’Inria à Montbonnot (655 avenue de l’Europe, 38334 Montbonnot St Martin)

Jury :

  • Rapporteur : Stuart Russell, Professor, University of California, Berkeley
  • Rapporteur : Philippe Leray, Professor, Polytech’Nantes
  • Examinateur : Marc Schoenauer, DR INRIA, Saclay
  • Examinateur : Augustin Lux, Professor, Grenoble INP
  • Directeur de thèse : Pierre Bessière, DR CNRS, Collège de France

Cette thèse explore l’utilisation des modèles bayésiens au sein des IA de jeux vidéo multi-joueurs, particulièrement pour l’IA des jeux de stratégie en temps réel (STR). Les jeux vidéo se situent entre la robotique (en monde réel) et la simulation totale, car les autres joueurs ne sont pas simulés, pas plus que l’on n’a de contrôle sur la simulation du jeu. Les STR demandent un raisonnement et des décisions stratégiques (technologie, économie), tactiques (spatiel et temporel) et réactives (contrôle des unités). Nous avons utilisé la modélisation bayésienne comme une alternative à la logique, capable de traiter l’incomplétude (en informations, en spécifications) en la transformant en incertitude. L’apprentissage automatique aide à réduire la complexité de spécifier totalement de tels modèles. À travers la réalisation d’un joueur de StarCraft robotique, nous montrons que la programmtion bayésienne peut intégrer plusieurs sources d’incertitude (états cachés, intention, stochasticité). Les distributions de probabilité sont un moyen de transmettre l’ensemble des informations que l’on a, et peuvent représenter tour à tour : des contraintes, une connaissance partielle, l’estimation de l’espace d’états, et l’incomplétude du modèle lui-même.

Dans la première partie de cette thèse, nous détaillons les solutions actuelles aux problèmes qui se posent lors de la réalisation d’une IA de jeu multi-joueur, en donnant un aperçu des caractéristiques calculatoires et cognitives complexes des principaux types de jeux. En partant de ce constat, nous résumons les catégories transversales de problèmes, et nous introduisons comment elles peuvent être résolues par la modélisation bayésienne. Nous expliquons alors comment construire un programme bayésien en partant de connaissances et d’observations du domaine à travers un exemple simple de jeu de rôle. Dans la deuxième partie de la thèse, nous détaillons l’application de cette approche à l’IA de STR, ainsi que les modèles auxquels nous sommes parvenus. Pour le comportement réactif (micro-management), nous présentons un controleur multi-agent décentralisé et temps réel inspiré de la fusion sensori-motrice. Ensuite, nous accomplissons les adaptation dynamiques de nos stratégies et tactiques à celles de l’adversaire en le modélisant à l’aide de l’apprentissage artificiel (supervisé et non supervisé) depuis des traces de joueurs de haut niveau. Ces modèles probabilistes de joueurs peuvent être utilisés à la fois pour la prédiction des décisions/actions de l’adversaire, mais aussi à nous-même pour la prise de décision si on substitue les entrées par les notres. Enfin, nous expliquons l’architecture de notre joueur robotique de StarCraft, et nous précisions quelques détails techniques d’implémentation.

Au delà des modèles et de leurs implémentations, nos contributions sont principalement dans deux catégories : l’intégration de modèles hierarchiques et séquentiels, et l’utilisation de l’apprentissage artificiel pour produire ou utiliser des abstractions. Nous traitons la complexité inhérente des jeux temps réel multi-joueurs en propageant des contraintes temporelles et hiérarchiques à travers les abstractions de plus haut niveau vers celles de plus bas niveau. Nous avons produit certaines de ces abstractions par partitionnement, alors que d’autres sont produites par des heuristiques, dont les valeurs sont intégrées au modèle bayésien par apprentissage supervisé.