AlphaZero:通用棋类AI,棋类游戏的“终结者”

机器是否能够产生智能,我们已经为此思考了很久很久。那么,该如何验证机器具有智能呢?一个常用方法就是玩棋盘游戏,比如国际象棋,看看其是否具有超人的能力,甚至击败世界冠军。



在国际象棋方面,IBM的深蓝在20年前就打败了国际象棋大师,而后续的Stockfish和Komodo这些国际象棋程序也早已称霸国际象棋世界。然而,深蓝、Stockfish和Komodo虽然能赢人类,但不能真正理解棋局



传统的国际象棋引擎——包括世界计算机国际象棋冠军Stockfish和IBM突破性的深蓝——依赖于数千个由强大的人类玩家手工编制的规则和启发式算法,试图解读游戏中的每一种可能性。Shogi程序也是针对于特定游戏的,使用与国际象棋程序类似的搜索引擎和算法。




谷歌旗下AI开发部门DeepMind的作品登上了《Science》杂志的封面。AlphaZero在围棋和日本将棋领域里超越了人类之后,又从无到有地重新挖掘出了国际象棋的正确下法。




AlphaZero采用了一种完全不同的方法,用深度神经网络和通用算法取代了这些手工制作的规则,这些算法对基本游戏规则之外的东西一无所知。AlphaZero能够在不依赖于外部先验知识的情况下在棋盘类游戏中获得超越人类的表现,通过自我博弈汲取经验知识来不断精通游戏。




AlphaZero是首个能够在国际象棋、围棋等游戏中达到超越人类水平、击败世界冠军的计算机系统,且它仅依赖于游戏规则,无需任何人类先验知识。




仅凭给定的游戏规则,AlphaZero即可进行自我博弈,逐步习得游戏策略与技巧。最令人不可思议的是,AlphaZero似乎表达出一种天然的洞察力。它具备浪漫而富有攻击性的风格,以一种直观而优美的方式发挥着电脑所没有的作用。它会玩花招,冒险。在与计算机国际象棋世界冠军Stockfish的对局中,当AlphaZero在第10局进行进攻时,它把自己的皇后佯退到棋盘的角落里,远离Stockfish的国王。通常来说,这并不是攻击皇后应该被放置的地方。




然而,这种奇怪的撤退行为充满了恶意,不管Stockfish如何应对,它都注定要失败。经过数十亿次残酷的计算后,AlphaZero几乎是在等待Stockfish意识到,自己的处境是多么无望,就像一头被击败的公牛面对斗牛士一样平静落败。大师们从未见过这样的机器。AlphaZero拥有精湛的技艺,同时也拥有机器的力量。这是人类第一次瞥见一种令人敬畏的新型智能。




很明显,AlphaZero获胜靠的是更聪明的思维,而不是更快的思维。它每秒只计算6万个位置,而Stockfish会计算6千万个。它更明智,知道该思考什么,该忽略什么。卡斯帕罗夫在《科学》杂志文章附带的一篇评论中写道,AlphaZero通过自主发现国际象棋的原理,开发出一种“反映游戏真相”的玩法,而不是“程序员式的优先级和偏见”。