Alpha Go Zero, la inteligencia artificial que aprende sola

Este jueves se revelaron los resultados de un programa de Inteligencia Artificial que aprendió a jugar el milenario “Go”, considerado el juego más difícil.

Publicado el
El Alpha Go Zero ha perfeccionado su estrategia de Go, mientras que a los jugadores les ha tomado siglos. (Foto Prensa Libre: El País).
El Alpha Go Zero ha perfeccionado su estrategia de Go, mientras que a los jugadores les ha tomado siglos. (Foto Prensa Libre: El País).

El programa de Google desarrollado por DeepMind ha obtenido resultados asombrosos en un corto período de tiempo. Se trata del AlphaGoZero un programa de inteligencia artificial que se ha enseñado a sí mismo a jugar Go.


La revista Nature explica que el reto de la inteligencia artificial era desarrollar algoritmos que aprendan conceptos difíciles con una competencia humana. Ahora el AlphaGoZero lo ha logrado.

En 2016 se hizo famosa la primera versión de este programa, el Alpha Go. Este sistema requería de 48 TPU (chips especializados que simulan las redes neuronales) para funcionar. Para poder vencer al campeón mundial del Go, el Alpha Go necesitó de 30 millones de partidas de entrenamiento durante varios meses.

Ahora, el Alpha Go Zero ha logrado lo mismo con muchos menos recursos. Este utiliza solo 4 TPU, le bastaron 4.9 millones de partidas para entrenarse en tan solo 70 horas. En comparación es un programa sumamente más eficiente que su predecesor.

La diferencia entre los programas es que el segundo aprendió por si solo, mientras el primero aprendió a jugar en base a partidas de expertos. 


El reto de los ingenieros en la nueva versión del algoritmo era lograr que aprendiera el juego partiendo de una “tabula rasa” y sin ningún conocimiento de partidas humanas previas.

Alpha Go Zero ha adquirido su maestría en el juego de estrategia únicamente disputando partidas contra sí mismo.
Empezó a jugar con movimientos de fichas al azar y fue aprendiendo en cada partida en base a los errores y aciertos cometidos.

El algoritmo funciona en una única computadora dotada con cuatro Unidades de Procesamiento de Tensor (TPU, en inglés), circuitos integrados desarrollados específicamente para el aprendizaje de máquinas.

Los autores del trabajo, ingenieros de la compañía británica DeepMind -adquirida por Google en 2014-, subrayan que su programa de inteligencia artificial ha descubierto de forma independiente algunos conceptos del juego del Go que los humanos tardaron siglos en conceptualizar.

AlphaGo Zero también ha desarrollado nuevas estrategias que no habían sido antes puestas en práctica y que arrojan nueva luz sobre las posibilidades del juego, inventado en China hace más de 2.500 años.