AlphaGo Zero
AlphaGo Zero est une version améliorée du logiciel de go AlphaGo produite par l'entreprise DeepMind introduite par un article dans la revue Nature du . Il s'agit d'une version développée sans l'aide de données provenant de parties jouées entre humains, ni de connaissances autres que les règles du jeu. Cette version est plus forte que n'importe quelle version précédente[1]. En jouant contre lui-même, AlphaGo Zero a dépassé la force de la version d’AlphaGo du match contre Lee Se-dol en trois jours en gagnant par 100 jeux à 0, a atteint le niveau d’AlphaGo Master en 21 jours, et a dépassé toutes les anciennes versions en 40 jours[2].
En , une version généraliste d'AlphaGo Zero, nommé AlphaZero, a battu une version d'AlphaGo Zero ayant 3 jours d'apprentissage à 60 parties à 40. Avec 8 heures de pratique, elle a surpassé la version d’AlphaGo lors du match contre Lee Se-dol sur l'échelle Elo, ainsi que le programme d'échecs de haut niveau Stockfish et le programme de shogi Elmo[3],[4].
Apprentissage
[modifier | modifier le code]Le réseau neural d'AlphaGo Zero a été formé en utilisant TensorFlow, en faisant travailler 64 processeurs graphiques (GPU) et 19 processeurs (CPU) paramétrés comme serveurs. Seulement quatre processeurs dédiés à l'apprentissage automatique (TPU, tensor processing unit) ont été utilisés pour les inférences. Initialement, le réseau de neurones ne savait rien d'autre du go que les règles du jeu. Contrairement aux versions antérieures d’AlphaGo, AlphaGo Zero, plutôt que de recevoir quelques situations programmés pour reconnaître quelques positions inhabituelles, n'appréhende que le plateau de jeu. L'IA est engagée dans l'apprentissage par renforcement, en jouant contre elle-même jusqu'à ce qu'elle puisse anticiper ses propres mouvements et l'incidence de ceux-ci sur le résultat du jeu. Dans les trois premiers jours, AlphaGo Zero a joué 4,9 millions de jeux contre lui-même en succession rapide. Il est apparu qu'il a développé les compétences requises pour battre les meilleurs joueurs humains en quelques jours, alors que les versions précédentes d'AlphaGo ont nécessité des mois de formation pour atteindre le même niveau.
En comparaison, les chercheurs ont également formé une version d'AlphaGo Zero en utilisant des parties jouées par des humains, et ont constaté qu'il a appris plus rapidement, mais en fait avec des performances moindre à long terme. DeepMind a présenté ses premières conclusions à Nature en , article ensuite publié en .
L'apprentissage par l’intelligence artificielle sans données provenant d'experts humains a d'importantes implications pour le développement d'IA à talents surhumains, car « les données d'experts sont souvent coûteuses, peu fiables ou tout simplement indisponibles »[5]. Demis Hassabis, cofondateur et directeur de DeepMind, a déclaré qu’AlphaGo Zero est devenu aussi fort parce qu'il n'était « plus contraint par les limites de la connaissance humaine »[6]. Selon David Silver de DeepMind il est possible de généraliser ces algorithmes à apprentissage autonome[7]
Coût du matériel
[modifier | modifier le code]Le coût du matériel pour un seul système AlphaGo Zero, y compris les composants personnalisés, a été estimé à 25 millions de dollars.
Applications
[modifier | modifier le code]Selon Hassabis, les algorithmes d'AlphaGo sont susceptibles d'être le plus utile dans des domaines nécessitant de fouiller un vaste champ de possibles, telles que le repliement des protéines ou la simulation précise de réactions chimiques. Il est probablement moins utile dans des domaines difficiles à simuler, comme apprendre à conduire une voiture. DeepMind a déclaré en , avoir déjà commencé à travailler sur le repliement des protéines au travers d'une nouvelle version d'AlphaGo, et a annoncé la publication prochaine de nouveaux résultats.
Accueil
[modifier | modifier le code]Oren Etzioni de l'Institut Allen pour l'Intelligence Artificielle a qualifié AlphaGo Zero de « résultat technique très impressionnant à la fois [sur] leur capacité à l'avoir fait—et leur capacité à instruire le système en 40 jours, sur quatre TPUs ». The Guardian a parlé d'une « percée majeure pour l'intelligence artificielle », citant Eleni Vasilaki de l'Université de Sheffield et Tom Mitchell de l'Université de Carnegie Mellon, qui ont respectivement salué un exploit et « un accomplissement technique remarquable ». Mark Pesce de l'Université de Sydney a décrit AlphaGo Zero comme « une grande avancée technologique nous propulsant en "territoire inconnu" ».
Gary Marcus, un psychologue à l'Université de New York, a mis en garde sur le fait que, pour ce que nous en savons, AlphaGo peut contenir des « connaissances implicites issues des programmeurs sur la façon de construire des machines pour jouer à des jeux tels que le go » et devra être testé dans d'autres domaines avant d'être sûr que son architecture de base soit efficace à autre chose que ce jeu. DeepMind se défend en assurant que « cette approche est généralisable à un grand nombre de domaines ».
Selon le joueur de go professionnel sud-coréen Lee Sedol, « La version précédente d'AlphaGo n'était pas parfaite, et je crois que c'est pourquoi AlphaGo Zero a été créé ». Il a ajouté qu'il faudra attendre de voir le développement mais qu'il aurait un impact sur les jeunes joueurs de go. Pour Mok Jin-seok, qui dirige l'équipe nationale Sud-coréenne, les joueurs de go dans le monde ont déjà commencé à imiter les styles de jeu des versions précédentes d'AlphaGo pour en tirer de nouvelles idées, et il espère que de nouvelles formes sortiront d'AlphaGo Zero. Mok Jin-seok considère qu'AlphaGo Zero joue plus comme un humain que ses prédécesseurs.
Le joueur professionnel chinois Ke Jie considère les capacités d'auto-apprentissage du nouveau programme comme supérieures, et rendant la présence humaine redondante.
Comparaison avec les prédécesseurs
[modifier | modifier le code]Versions | Matériel utilisé[8] | Elo | Matchs |
---|---|---|---|
AlphaGo Fan | 176 GPU, distribué | 3 144 | 5:0 contre Fan Hui |
AlphaGo Lee | 48 TPU, distribué | 3 739 | 4:1 contre Lee Sedol |
AlphaGo Master | 4 TPU, sur une seule machine | 4 858 | 60:0 contre des joueurs professionnels; au
'Future of Go summit' |
AlphaGo Zero (40 jours) | 4 TPU, sur une seule machine | 5 185 | 100:0 contre AlphaGo Lee
89:11 contre AlphaGo Master |
AlphaZero (34 heures) | 4 TPU, sur une seule machine | ~5 500 (est.) | 60:40 contre AlphaGo Zero |
Articles liés
[modifier | modifier le code]Références
[modifier | modifier le code]- David Silver, Julian Schrittwieser, Karen Simonyan, Ioannis Antonoglou, Aja Huang, Arthur Guez, Thomas Hubert, Lucas Baker, Matthew Lai, Adrian Bolton, Yutian Chen, Timothy Lillicrap, Hui Fan, Laurent Sifre, George van den Driessche, Thore Graepel et Demis Hassabis, « Mastering the game of Go without human knowledge », Nature, vol. 550, no 7676, , p. 354–359 (ISSN 0028-0836, DOI 10.1038/nature24270, lire en ligne, consulté le )
- Demis Hassabis et David Siver, « AlphaGo Zero: Learning from scratch », DeepMind official website, (consulté le )
- (en) David Silver, Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou, Matthew Lai et al., « Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm », .
- « Entire human chess knowledge learned and surpassed by DeepMind's AlphaZero in four hours », sur telegraph.co.uk
- « Google's New AlphaGo Breakthrough Could Take Algorithms Where No Humans Have Gone », Yahoo! Finance, (consulté le )
- « AlphaGo Zero: Google DeepMind supercomputer learns 3,000 years of human knowledge in 40 days », Telegraph.co.uk, (consulté le )
- « DeepMind AlphaGo Zero learns on its own without meatbag intervention », ZDNet, (consulté le )
- Le matériel utilisé durant les entrainement peut être considérablement plus élevées