L’IA passe 7 000 heures à battre le premier gymnase de Pokémon Rouge, mais ne parvient toujours pas à trouver le deuxième après 50 000 heures.

L'IA échoue à trouver le deuxième gymnase de Pokémon Rouge même après avoir passé 7 000 heures à vaincre le premier, et 50 000 heures de jeux.

Un programmeur a donné à un modèle d’intelligence artificielle un entraînement de 50 000 heures sur la façon de jouer à Pokemon Rouge, ce qui a abouti à un algorithme capable d’explorer le jeu et de constituer une équipe pour vaincre le premier chef d’arène – mais pas capable de se frayer un chemin à travers Mt. Moon ni de savoir qu’il vaut mieux arrêter d’acheter des Magicarpe. Surtout, cet exercice est une façon fascinante de comprendre comment fonctionne l’apprentissage automatique.

Comme expliqué dans une vidéo détaillée par Peter Whidden, l’IA est capable d’interagir avec le jeu à l’aide des entrées de commande habituelles sur un émulateur. Elle appuie sur un bouton, observe l’écran pour voir ce qui se passe, comme le ferait un joueur humain. Whidden a programmé des sessions d’apprentissage d’une durée de deux heures chacune, mais grâce à l’accélération de l’émulateur, ces sessions pouvaient être terminées en environ six minutes en temps réel – et le processus a été accéléré davantage en exécutant simultanément 40 sessions de test.

Étant donné qu’un algorithme informatique ne se soucie pas intrinsèquement de battre un jeu vidéo, Whidden a défini des objectifs particuliers à récompenser par l’IA. Pour favoriser l’exploration curieuse, l’IA obtenait un point de récompense chaque fois qu’elle découvrait quelque chose de nouveau, mesuré par l’apparition de pixels nettement différents à l’écran. Cela a eu des conséquences non intentionnelles – l’IA se mettait simplement à fixer, fascinée, l’animation légère de l’eau, par exemple – mais cela lui permettait dans l’ensemble de rester motivée pour passer de Bourg Palette à la Forêt de Jade et jusqu’à Argenta, où se déroule le premier combat d’arène contre Pierre.

L’IA a également besoin de récompenses et de sanctions supplémentaires. Avec toutes les récompenses liées à la découverte de nouvelles choses, l’IA avait simplement envie d’avancer, ce qui signifiait qu’elle ne se souciait pas des combats ou de la capture de Pokemon. Elle fuyait donc initialement chaque rencontre. Whidden a donc ajouté un système où l’IA est récompensée en fonction du niveau total de son équipe active de Pokemon.

Cela a incité l’IA à combattre pour gagner de l’expérience et à capturer des Pokemon, mais cela a également eu une conséquence non intentionnelle. Lorsque l’IA se rendait dans un Centre Pokemon, elle interagissait avec le PC et y déposait quelques Pokemon. Cela réduisait considérablement le niveau total de l’équipe, supprimant ainsi une masse de points de récompense d’un coup. C’était l’équivalent d’une expérience traumatisante pour l’IA, qui évitait donc les Centres Pokemon – refusant ainsi de soigner l’équipe jusqu’à ce que Whidden ajuste à nouveau les systèmes de récompense.

Puisque l’IA continue essentiellement à faire des choses au hasard jusqu’à ce qu’elle parvienne à trouver quelque chose qui lui rapporte des points de récompense, le combat contre Pierre s’est avéré être un problème particulier, car il faut exploiter les faiblesses élémentaires des Pokemon de type roche pour leur infliger de réels dégâts. Ce n’est que grâce à une itération particulière où le Carapuce de l’IA s’est retrouvé à court de PP pour tous ses mouvements, à l’exception de Bulles d’O qu’elle a réussi à comprendre comment battre l’arène.

Cependant, si l’IA a du mal à comprendre des choses qui pourraient sembler assez naturelles pour les joueurs humains, elle apprend assez rapidement d’autres choses beaucoup plus ésotériques. Whidden a réalisé à un certain moment que l’algorithme tracera toujours un chemin très spécifique et apparemment sans logique depuis Bourg Palette jusqu’à la première rencontre avec un Pokemon sauvage. Cela semblait étrange jusqu’à ce qu’il devienne évident que cette série précise d’actions garantissait que le Pokemon sauvage pourrait être capturé avec un seul lancer d’une Pokeball. Oui, l’IA a spontanément appris l’art même de la manipulation de RNG que les speedrunners mettent des années à développer.

Battre Pierre était un objectif final assez naturel pour le projet, mais Whidden a laissé l’IA continuer pour voir ce qui se passerait, et elle a réussi à avancer profondément dans Mt. Moon – mais les passages sombres et similaires du donjon étaient si rebutants pour l’IA qu’elle n’a jamais réussi à trouver son chemin de l’autre côté, et donc à trouver la deuxième arène à Céladopole.

Cependant, il y avait une chose que l’IA adorait, c’était l’achat de Magicarpe. L’homme louche qui vous vend le pire Pokemon de tous les temps à un prix exorbitant est pratiquement une blague à ce stade, mais pour l’IA, acheter ce Magicarpe est un moyen rapide d’obtenir cinq niveaux supplémentaires de Pokemon dans son équipe – la meilleure affaire du jeu ! Apparemment, l’IA a acheté ce Magicarpe plus de 10 000 fois.

Oh, et pour une dernière anecdote sur la magie d’un ordinateur qui fait des choses aléatoires : à un moment donné, l’IA a capturé un Rattata et a nommé le Pokemon ‘IA’. Parfois, ces choses se combinent un peu trop parfaitement.

L’art et l’écriture générés par l’IA sont extrêmement controversés, mais certains développeurs chevronnés estiment que dans l’industrie du jeu, “l’argent va continuer à motiver absolument tout le monde” à utiliser l’apprentissage automatique.