AlphaGo

AlphaGo es un programa informático de inteligencia artificial desarrollado por Google DeepMind para jugar al juego de mesa Go. En octubre de 2015 se convirtió en la primera máquina de Go en ganar a un jugador profesional sin emplear piedras de handicap en un tablero de 19x19.

Se enfrentó contra el jugador chino Fan Hui 2p en una serie de 5 partidas oficiales, las cuales AlphaGo ganó, seguidas por unas partidas informales que acabaron 3-2 a favor de la inteligencia artificial. En marzo de 2016, se enfrentó a uno de los mejores jugadores, Lee Sedol 9p. El 9 de marzo de 2016, AlphaGo ganó la primera partida de este enfrentamiento.^[1]^[2] Hasta marzo del 2016, AlphaGo estaba clasificado como número dos del mundo en el ranking no oficial de Rémi Coulom, con un elo de 3611 hasta julio del 2016.^[3] En reconocimiento por vencer a Lee Sedol, AlphaGo fue galardonado con un honorario 9-dan por la Asociación Coreana de Baduk.

En 2017, AlphaZero, del propio DeepMind, superó a la versión AlphaGo Zero y otros programas de ajedrez y Shōgi después de solo 24 horas de juego. Después de 4 horas de juegos adquirió un nivel superhumano.^[4]^[5]

Hardware

AlphaGo se puso a prueba en hardware con varios números de CPU s y GPU s, que se ejecuta en modo asíncrono o distribuido. Dos segundos de tiempo de pensar se da a cada movimiento. El Elo resultante se enumera a continuación^[6]

Configuración y rendimiento
Configuración	Hilos de búsqueda	No. de CPU	No. de GPU	Ranking de Elo
Asíncrono	40	48	1	2,151
Asíncrono	40	48	2	2,738
Asíncrono	40	48	4	2,850
Asíncrono	40	48	8	2,890
Distribuido	12	428	64	2,937
Distribuido	24	764	112	3,079
Distribuido	40	1,202	176	3,140
Distribuido	64	1,920	280	3,168

Configuración y fuerza^[7]
Versiones	Hardwares	Elo	Partidos
AlphaGo Fan	176 GPUs, distribuido	3.144	5:0 contra Fan Hui
AlphaGo Lee	48 TPUs, distribuido	3.739	4:1 contra Lee Sedol
AlphaGo Master	Una sola máquina con 4 TPU v2	4.858	60:0 contra jugadores profesionales; Cumbre del Futuro de Go
AlphaGo Zero	Una sola máquina con 4 TPUs^[8] v2	5.185^[9]	100:0 contra AlphaGo Lee 89:11 contra AlphaGo Master

AlphaGo Zero

El equipo de AlphaGo publicó un artículo en la revista Nature el 19 de octubre de 2017, presentando AlphaGo Zero, una versión sin datos humanos y más sólida que cualquier otra versión humana anterior que derrotara al campeón.^[9] Al jugar juegos contra sí mismo, AlphaGo Zero superó la fuerza de AlphaGo Lee en tres días al ganar 100 juegos a 0, alcanzó el nivel de AlphaGo Master en 21 días y superó todas las versiones anteriores en 40 días.^[8]

Algoritmo

El algoritmo de AlphaGo utiliza una combinación de técnicas de aprendizaje automático y árbol de búsqueda, combinadas con una amplia formación, tanto desde el juego humano y como del ordenador. Utiliza árbol de búsqueda Monte Carlo, guiada por una «red de valor» y una «red de políticas», ambas implementadas mediante la tecnología de redes neuronales de aprendizaje profundo.^[10]^[6] Una cantidad limitada de detección de características pre-procesamiento-juego específico se utiliza para generar las entradas a las redes neuronales.^[6]

Las redes neuronales del sistema fueron inicialmente bootstrapeadas a partir de la experiencia de juego humano. AlphaGo fue entrenado inicialmente para imitar el juego humano, tratando de igualar los movimientos de los jugadores expertos de juegos históricos registrados, utilizando una base de datos de alrededor de 30 millones de movimientos. Una vez que había alcanzado un cierto grado de habilidad, era entrenado aún más al ser llamado a desempeñar un gran número de partidos contra otras instancias de sí mismo, usando aprendizaje por refuerzo para mejorar su juego.^[10]

Estilo de juego

AlphaGo ha sido descrito por el jugador de 9-dan Myungwan Kim como jugar «contra un ser humano» en sus partidos contra Fan Hui.^[11] El árbitro del partido, Toby Manning, ha descrito el estilo del programa como «conservador».^[12]

Respuestas

AlphaGo ha sido aclamado como un hito en la investigación de la inteligencia artificial, como Go previamente ha sido considerado como un problema difícil en el aprendizaje de máquinas que se esperaba que este fuera del alcance de la tecnología de la época.^[13]^[14] Toby Manning, el árbitro de AlphaGo contra Fan Hui y Hajin Lee, y el secretario general de la Federación Internacional de Go han dicho que en el futuro, los jugadores de Go contarán con la ayuda de las computadoras para aprender lo que han hecho mal en los juegos y mejorar sus habilidades.^[15]

Sistemas similares

Facebook también ha estado trabajando en su propio sistema de juego de Go, el darkforest, el cual también se basa en la combinación de máquina de aprendizaje y búsqueda de árbol.^[16] Aunque es un jugador fuerte contra otro programas de computadora de Go, hasta principios de 2016, todavía no había vencido a un jugador humano profesional.^[17] Darkforest perdió contra CrazyStone y Zen y se estima que es de una similar resistencia a ellos.^[18]

Ejemplo de juegos

AlphaGo (negro) v. Fan Hui, el Juego 4 (8 de octubre de 2015), AlphaGo ganó por abandono.^[6]

Primeras 99 movidas (96 a 10)

Movidas 100-165.

Enfrentamiento

Artículo principal: AlphaGo versus Lee Sedol

El encuentro
Partida no.	Fecha	Negras	Blancas	Resultado	Movimientos
1	9 de marzo de 2016	Lee Sedol	AlphaGo	B+abandono	186
2	10 de marzo de 2016	AlphaGo	Lee Sedol	N+abandono	211
3	12 de marzo de 2016	Lee Sedol	AlphaGo	B+abandono	176
4	13 de marzo de 2016	AlphaGo	Lee Sedol	B+abandono	180
5	15 de marzo de 2016	Lee Sedol	AlphaGo	B+abandono	280
Resultado: AlphaGo 4 – 1 Lee Sedol

Referencias

↑ «Google’s AI beats world Go champion in first of five matches - BBC News». BBC Online. Consultado el 9 de marzo de 2016.
↑ «1 Enfrentamiento Youtube». Consultado el 8 de marzo de 2016.
↑ http://www.goratings.org/ goratings.org
↑ «Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm».
↑ «Entire human chess knowledge learned and surpassed by DeepMind's AlphaZero in four hours».
↑ ^a ^b ^c ^d Silver, David; Huang, Aja; Maddison, Chris J.; Guez, Arthur; Sifre, Laurent; Driessche, George van den; Schrittwieser, Julian; Antonoglou, Ioannis et al.. «Mastering the game of Go with deep neural networks and tree search». Nature 529 (7587): 484-489. doi:10.1038/nature16961.
↑ «【柯洁战败解密】AlphaGo Master最新架构和算法，谷歌云与TPU拆解» (en chino). Sohu. 24 de mayo de 2017. Consultado el 1 de junio de 2017.
↑ ^a ^b «AlphaGo Zero: Learning from scratch». DeepMind official website. 18 de octubre de 2017. Archivado desde el original el 19 de octubre de 2017. Consultado el 19 de octubre de 2017.
↑ ^a ^b «Mastering the game of Go without human knowledge». Nature. 19 de octubre de 2017. Consultado el 19 de octubre de 2017.
↑ ^a ^b Schraudolph, Nicol N.; Terrence, Peter Dayan; Sejnowski, J. «Temporal Difference Learning of Position Evaluation in the Game of Go».
↑ David, Eric (1 de febrero de 2016). «Google’s AlphaGo "plays just like a human," says top ranked Go player». SiliconANGLE (en inglés estadounidense). Consultado el 3 de febrero de 2016.
↑ Gibney, Elizabeth (27 de enero de 2016). «Google AI algorithm masters ancient game of Go». Nature News & Comment (en inglés). Consultado el 3 de febrero de 2016.
↑ Connor, Steve (27 de enero de 2016). «A computer has beaten a professional at the world's most complex board game». The Independent (en inglés). Consultado el 28 de enero de 2016.
↑ «Google's AI beats human champion at Go». CBC News (en inglés). 27 de enero de 2016. Consultado el 28 de enero de 2016.
↑ Gibney, Elizabeth (2016). «Go players react to computer defeat». Nature (en inglés). doi:10.1038/nature.2016.19255.
↑ Tian, Yuandong; Zhu, Yan (2015). «Better Computer Go Player with Neural Network and Long-term Prediction». arXiv:1511.06410v1 [cs.LG].
↑ HAL 90210 (28 de enero de 2016). «No Go: Facebook fails to spoil Google's big AI day». The Guardian (en inglés británico). ISSN 0261-3077. Consultado el 1 de febrero de 2016.
↑ «Strachey Lecture - Dr Demis Hassabis on Livestream» (en inglés estadounidense). The New Livestream. Consultado el 28 de marzo de 2016.

Véase también

Enlaces externos

Datos: Q22329209
Multimedia: AlphaGo / Q22329209

[1] «Google’s AI beats world Go champion in first of five matches - BBC News». BBC Online. Consultado el 9 de marzo de 2016.

[2] «1 Enfrentamiento Youtube». Consultado el 8 de marzo de 2016.

[3] ttp://www.goratings.org/ goratings.org

[4] «Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm».

[5] «Entire human chess knowledge learned and surpassed by DeepMind's AlphaZero in four hours».

[DeepMindnature2016-6] Silver, David; Huang, Aja; Maddison, Chris J.; Guez, Arthur; Sifre, Laurent; Driessche, George van den; Schrittwieser, Julian; Antonoglou, Ioannis et al.. «Mastering the game of Go with deep neural networks and tree search». Nature 529 (7587): 484-489. doi:10.1038/nature16961.

[sohu0524-7] «【柯洁战败解密】AlphaGo Master最新架构和算法，谷歌云与TPU拆解» (en chino). Sohu. 24 de mayo de 2017. Consultado el 1 de junio de 2017.

[Deepmind20171018-8] «AlphaGo Zero: Learning from scratch». DeepMind official website. 18 de octubre de 2017. Archivado desde el original el 19 de octubre de 2017. Consultado el 19 de octubre de 2017.

[Nature2017-9] «Mastering the game of Go without human knowledge». Nature. 19 de octubre de 2017. Consultado el 19 de octubre de 2017.

[googlego-10] Schraudolph, Nicol N.; Terrence, Peter Dayan; Sejnowski, J. «Temporal Difference Learning of Position Evaluation in the Game of Go».

[11] David, Eric (1 de febrero de 2016). «Google’s AlphaGo "plays just like a human," says top ranked Go player». SiliconANGLE (en inglés estadounidense). Consultado el 3 de febrero de 2016.

[:0-12] Gibney, Elizabeth (27 de enero de 2016). «Google AI algorithm masters ancient game of Go». Nature News & Comment (en inglés). Consultado el 3 de febrero de 2016.

[13] Connor, Steve (27 de enero de 2016). «A computer has beaten a professional at the world's most complex board game». The Independent (en inglés). Consultado el 28 de enero de 2016.

[14] «Google's AI beats human champion at Go». CBC News (en inglés). 27 de enero de 2016. Consultado el 28 de enero de 2016.

[15] Gibney, Elizabeth (2016). «Go players react to computer defeat». Nature (en inglés). doi:10.1038/nature.2016.19255.

[facebook-paper-16] Tian, Yuandong; Zhu, Yan (2015). «Better Computer Go Player with Neural Network and Long-term Prediction». arXiv:1511.06410v1 [cs.LG].

[17] HAL 90210 (28 de enero de 2016). «No Go: Facebook fails to spoil Google's big AI day». The Guardian (en inglés británico). ISSN 0261-3077. Consultado el 1 de febrero de 2016.

[18] «Strachey Lecture - Dr Demis Hassabis on Livestream» (en inglés estadounidense). The New Livestream. Consultado el 28 de marzo de 2016.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]