Intelligence artificielle: AlphaGo Zero, le nouveau champion qui apprend "seul"

Alain Brian
Octobre 19, 2017

La première version avait été programmée avec une base de données de pas moins de 100 000 parties de jeu de go. Cela implique des tonnes de données et des heures à analyser les mouvements des parties.

En 40 jours, il écrase la version la plus performante d'Alpha Go 100 à 0.

Vous l'aurez compris, AlphaGo Zero est une IA autodidacte qui n'a pas eu besoin d'aide humaine pour se forger une stratégie de jeu gagnante. Et elle a appris à jouer toute seule, sans données tirées de parties humaines.

C'est à la fois une révolution, mais également des raisons de nuancer l'exploit. Cette capacité des IA modernes à devenir plus fortes dès lors que l'homme ne les nourrit plus directement rappelle aussi les oeuvres d'anticipation: dans le film Her de Spike Jonze, l'IA sensuelle finit par se détourner de son amoureux humain parce que sa super-intelligence finit par comprendre que cette expérience d' " amour " s'avère bien trop limitée pour ses capacités...

Pour s'entraîner, AlphaGo Zero a joué contre lui-même, "en partant de 0" sans autre connaissance sur le go que les règles du jeu.

AlphaGo Zero a utilisé le Reinforcement Learning qui est un apprentissage automatique par des systèmes de sanction et de récompense. AlphaGo Zero peut l'utiliser dans toutes les occasions ce qui lui a donné un avantage certain.

"Après trois jours d'entraînement (presque 5 millions de parties, ndlr) en autodidacte, il a battu la version de 2016 d'AlphaGo", expliquent Demis Hassabis et David Silver sur un blog. En comparaison, il avait fallu plusieurs mois à AlphaGo Lee pour arriver au même résultat.

Ces victoires avaient été présentées comme de véritables exploits pour une intelligence artificielle, en tenant compte du nombre gigantesque de combinaisons (de l'ordre de 10^170) pour ce jeu de plateau inventé en Chine il y a trois mille ans, et où l'intuition humaine s'exprime. Comme son nom l'indique, elle a été repensée de zéro avec une "nouvelle " approche. A l'aide de réseaux neuraux, Deepmind a toutefois réussi à concevoir un ordinateur capable d'apprendre Go. Pour des problèmes plus sérieux comme la résolution de l'interaction des molécules pour un médicament ou pour réduire les dépenses énergétiques, il faudra beaucoup plus. "Si des techniques similaires peuvent être appliquées à d'autres structures problématiques, comme le repliement de protéines, la réduction de la consommation des énergies ou la recherche de nouveaux matériels révolutionnaires, nos découvertes ont le potentiel pour conduire plus avant la compréhension humaine et avoir un impact positif sur nos vies". Mastering the game of Go without human knowledge.

D'autres rapports CampDesrEcrues

Discuter de cet article

SUIVRE NOTRE JOURNAL