机器如何学会下棋

2022-08-16 00:02:2313:12 124
所属专辑:深度学习
声音简介
各位听众朋友大家好,我是主播欧锋,现在为大家介绍美国科学家特伦斯谢诺夫斯基所著《深度学习——智能时代的核心驱动力量》

奖励学习

中世纪流传下来这样一个故事:一位统治者为了感谢发明国际象棋的人,想要奖励他一块麦田。发明人请求在棋盘的第一格放一粒麦子,第二格放两粒,第三格放四粒,依次类推,剩余每格都放前一格两倍的麦子,直到放满64格的棋盘。统治者觉得这个请求并不过分,就同意了。但实际上,要满足这一请求,统治者不仅要拿出他王国里所有的麦子,还要加上全世界未来几百年的麦子产量才能凑够,因为最后一格要放的麦粒数目达到了24(大约是10°)。'这被称为“指数增长”。在国际象棋和围棋游戏中,棋盘不同布局状态的增长速度比这个故事里麦子数量增加的速度还要快得多。在国际象棋中,每一步平均都有35种摆法,而在围棋中,分支系数是250,这就使得围棋的指数增长速度要快得多。


机器如何学会下棋

游戏的好处就在于,其规则都有明确的定义,玩家对棋盘十分熟悉,决策也不像现实世界中那样复杂,但又不失挑战性。1959年在商业数字计算机发展的早期,IBM的机器学习先驱亚瑟·塞缪尔( Arthur Samuel)编写了一个擅长玩国际跳棋的程序,在宣布其诞生的当天,IBM的股票就获得了巨大的收益。西洋跳棋则相对容易。塞缪尔的程序利用了代价函数来评估对局中不同布阵的优劣情况,这一点跟以前的游戏程序很相似。该程序是在IBM第一款真空管商用计算机IBM701上运行的,它在一个方面的创新令人印象深刻:通过跟自己对弈,学会了下棋。

在转到位于纽约约克敦海茨的IBM托马斯·J.沃森研究中心之前,杰拉德・特索罗在位于伊利诺伊大学香槟分校的复杂系统研究中心,与我一起训练神经网络玩西洋双陆棋(见图10-1)2我们的方法是,使用专家监督来训练反向传播网络,以评估当前的布局和可能的摆法。这种方法的缺陷在于,该程序永远比不过专家,而专家的水平并未达到世界冠军的级别。然而通过自我对局,网络可能会有更出色的表现。当时自我对局面临的问题是,在比赛结東时,唯一的学习信号就是赢或输。但是当一方获胜时,应该归功于之前若干步骤中的哪些步骤呢?这被称为“时域贡献度分配问题”。


……

杰拉德特索罗的程序名为TD-Gammon内建了西洋双陆棋棋盘和规则的重要特征,但他并不知道怎么下好每一步棋。在学习的初始阶段这些棋步是随机的,在最终某一方会赢,并得到最终奖励,西洋双陆的赢家是第一个将其所有棋子从棋盘上剔除出来的玩家。……

TD- Gammon展现了一些他从未见过的棋路,经过一番仔细研究,这些棋路被证明可以在总体上提升人类玩家的水平。当该程序与自己对局达到150万次时,罗伯特回来了,而且非常惊讶于自己居然只跟TD- Gammon打了个平手。它的水平突飞猛进,罗伯特觉得它已经达到了人类冠军的水平。西洋双陆棋专家基特·伍尔西( Kit Woolsey)发现,当时TD- Gammon对于应该打安全牌(低风险/低奖励)还是走险着(高风险/高奖励)的判断,比他见过的任何人都要准确。虽然150万局的训练可能看起来已经很多了,但它只代表了所有10°个可能的西洋双陆棋板位置的无限小部分;这要求TD- Gammon的几乎每一步棋都能推广到新的棋板位置。TD- Gammon并没有像IBM的“深蓝”那样受到公众的关注,后者在1997年的国际象棋比赛中击败了加里・卡斯帕罗夫(GanyKasparov)。国际象棋比西洋双陆棋要困难得多,卡斯帕罗夫当时是国际象棋的世界冠军。但在某些方面,TD- Gammon是一个令人印象更加深刻的成就。首先,TD- Gammon使用模式识别技术来教会自己如何下棋,这与人类学习的风格十分相似,而“深蓝”则通过暴力算法

( brute force)获得胜利,使用特制硬件,比任何人类棋手都能预见到更多可能的棋路。其次,TD- ammon也很有创意,使用了人类从未见过的微妙策略和位置决策。这样一来,TD- gammon也提高了人类的竟技水平。这一成就是人工智能历史上的一道分水岭,因为我们从一个人工智能程序中学习到了新东西。该程序教会了自己如何在一个人类熟稔的领域中掌握一种复杂的策略,这种新策略值得人们关注和思考。

20191108

用户评论

表情0/300
喵,没有找到相关结果~
暂时没有评论,下载喜马拉雅与主播互动
音频列表
猜你喜欢
如何学会学习

这本书极其通俗的和生动活泼的,书中在三位作者阐述大脑和行为动态是如何有效学习的基础,而且我们阐述了方式,让年轻的学者觉得容易甚至感到有趣。

by:不会写诗的诗人

如何学会共情

共情如何入门,如何体验共情的留白之美,自我实现的趋向,如何向内寻找世界的规律,情感的联系和区别,允许相信,一起产生化学反应,躯体感受和价值判断,避免职业异化,遵...

by:大头小寨

学会如何学习

我们都有能力学会自己似乎并不擅长的事物,其诀窍就是了解大脑的运作方式,从而释放它的力量。本书阐释了:10个高效学习工具1.合理利用专注模式和发散模式2.利用练习...

by:启辰说过要听话

学会如何学习

《学会如何学习》。作者芭芭拉·奥克利,密歇根州罗切斯特市奥克兰大学的工程学教授,麦克马斯特大学全球数字学习拉蒙-卡哈尔杰出学者。本科专业俄语。从小学到高中数理成...

by:行者言午播书

学会如何说话

学会如何说话,巧妙地表达自己的思想。

by:可能FM

学会如何写作

写作是这个时代的底层能力

by:苏绗

如何学会写作

1、写作增加生命的厚度2、记录过,才算真的“发生过”3、写作是一种自我完善4、写作是一种自我探索5、写作是一种参与世界的方式6、写作可以治愈自己,让自己更幸福7...

by:苏绗

如何学会盘点自己

欢迎您关注订阅,我们相信你通过学习应用,一定能够实现你的梦想与价值。首席讲师:依一欢迎学习交流:13131873903凡是新的事情在起头总是这样来的,起初...

by:私享云

【成长】学会如何学习

【专注做——喜马拉雅上没有的——有声书】学习,是我们人生中最重要的技能之一。我们都有能力学会自己似乎并不擅长的事物,其诀窍就是了解大脑的运作方式,从而释放它的力...

by:万能盒

如何学会与人交流

让生活中,与人交流是一件很重要的事,那么我们应该如何与人交流让别人欣赏,喜欢我们?

by:傻糖_影几