AlphaGo团队负责人大卫-席尔瓦
北京时间5月24日消息,昨日AlphaGo以1/4子优势战胜科技后,由中国围棋协会主办的人工智能论坛今天上午在浙江桐乡召开,DeepMind公司AlphaGo团队负责人大卫-席尔瓦(David Silver)在论坛上紧接公司CEO哈萨比斯的演讲,进一步详解了AlphaGo的原理。
席尔瓦首先对比了围棋和国际象棋的复杂度。国际象棋的每一步大约有30种可能性,而围棋每一步大约有100种可能性,这导致围棋的复杂度大大高于国际象棋,围棋棋局所有出现的可能性甚至多于全宇宙的粒子数目。所以围棋没法像使用穷举算法来解决。
卷积神经网络
AlphaGo原理
围棋巨大的搜索空间,AlphaGo的目的就是减少搜索量
新版AlphaGo仅使用了单个TPU
新版AlphaGo通过自我对弈进行强化学习
最后,席尔瓦用AlphaGo与其他竞争对手的围棋AI程序做对比。初代AlphaGo,也就是当初战胜欧洲围棋冠军樊麾的版本,已经比Zen、Crazy Stone等程序胜出4子,AlphaGo每进化一代,都比上一代要胜出3子,也就是说昨日与柯洁对战的AlphaGo相比去年版本已经有了很大的进步。其实,早在去年年底,新版的AlphaGo就已经在围棋网络快棋对战中战胜多国高手,取得了60连胜的不败战绩。
AlphaGo的棋力进步示意图