煎蛋科学第35期:评价学习 - 人工智能(三)

2019-06-11 11:48:34 3960
声音简介

第35期,2019年6月10日,评价学习 - 人工智能(三)


我们这一期继续来讲人工智能系列的第三期,评价学习。评价学习,也叫强化学习,英文叫做reinforcement learning。蛋博士比较喜欢评价学习这个翻译,比较客观的反映了这个机器学习机制的精髓,评价。评价学习,就是程序和环境之间的交流。每次交流过程中,程序会根据策略选择一个行为,然后环境会根据这个行为返回一个奖励。程序会根据这个奖励来评价自己先前策略是否好。简单说就是,评价学习就是吃一堑长一智,吃10的23次方个堑,长10的23此方次智。评价学习,是区别与机器学习中的监督学习和非监督学习的另外一种学习方式。监督学习,顾名思义,需要人监督,也就是人给机器找一堆书看,像家长一样监督机器学习,这些书就是训练数据,前面我们提到的阿尔法狗就是使用了大量的训练数据来实现监督学习的。非监督学习直接处理数据,主要是通过一些统计方法或者神经网络来寻找数据的相似性,或者寻找异常数据点等等,我们熟悉的PCA,还有自动编码器autoencoder都是比较常用的用来寻找数据相似性从而给数据降维的无监督学习的典型例子。评价学习则是一个动态的优化过程,没有任何数据,用于学习或者说优化一系列动作,比如下棋和游戏。


这个过程实际上非常复杂,我们简单概括一下。这样一个学习过程主要是计算状态动作函数Q和落子概率函数P。状态,就是棋盘布局,动作,就是如何落子。我们介绍了那么多函数,显然最优的路径并不是优化Q就完了,那样的话,神经网络根本学不到东西,而且蛋博士还浪费了时间介绍函数P。实际操作中,阿尔法元则是利用蒙特卡洛树搜索对Q+U进行优化,这个U,就是对Q的修正。这个步骤的精髓在于,我们并不总是接受Q值最大的结果,而是偶尔也接受一些奇怪的想法,这样才能提高,而且退一万步说,我们的对Q值的估计是来自神经网络,并不一定准确。这个对Q的修正项U,和落子概率以及树搜索对某个布局的访问次数有关,使得阿尔法元尽量选择落子概率高的,并且访问次数低的,这样可以尽量避免一些不经常搜索到的路径。使用了这些独特的办法,DeepMind的科学家在2017底在顶级综合期刊自然上发表了文章(Nature volume 550, pages 354–359 (19 October 2017)),表示经过3天时间使用评价学习训练出的阿尔法元,以100比0的胜率击败了哥哥阿尔法狗。在这三天时间内,阿尔法元自己和自己玩了将近500万局,人肯定是受不了的,但是阿尔法元作为有4个TPU的机器,只要有电,熬几个夜也不是什么问题。每一局阿尔法元平均进行1600次蒙特卡洛树搜索,也就是说每次落子思考时间就0.4秒,这速度人类也达不到。虽然说阿尔法元训练了3天,但是在1天半的时候就已经比哥哥阿尔法狗厉害了,3天就碾压了曾经打败李世石的阿尔法狗。


虽然说评价学习训练时间非常短,效果还很好,但是应用非常有限。目前主要还是应用在棋类上,像Dota这样的复杂游戏,要完全使用评价学习来训练机器还是做不到。Dota里面的复杂操作,像眼位和绕树林这种高级操作,目前还是需要用神经网络LSTM监督学习才能获得,所以在OpenAI的很多比赛中都规定不能插眼,并且限制能够使用的英雄,比较不是所有的英雄都训练过。随着神经网络训练时间的增加,我们还是希望有一天我们能看到人类战队能够和人工智能进行一场没有限制的Dota比赛。今天我们的节目就到这里,蛋博士发现从人工智能开始,煎蛋的收听率下降的很厉害,我想可能是因为这里面生僻词太多了,所以我们尽量缩短这个系列,并且减少每一集的专业词汇。下一期就是人工智能的最后一期了,我们会介绍一些发表在顶级期刊上的关于人工智能的前沿应用。当然,如果朋友希望多讲一些人工智能的知识,欢迎大家留言,感谢大家收听,我们下期再见!



用户评论

表情0/300

浩澜澜的泥塘

多讲讲人工智能吧! 求你了!

SimpleScience 回复 @浩澜澜的泥塘

没问题!

猜你喜欢
煎蛋科学 | 实用的科学前沿

内容简介:《煎蛋科学》用最简单的语言介绍最实用最硬核的科学知识和科研前沿成果。与其他类似节目不同的是,我们的团队成员都是理工医学博士,我们的节目介绍的知识和论点...

by:SimpleScience

孕期科学养护

怀孕是一个女人在一生中最为重要的几个过程之一。在孕期,准妈妈会经历孕吐、心态调整等环节。此外,妈妈最为关心的莫过于腹中的宝宝如何能够健康成长,因此我们开设了“孕...

by:孕产宝妈商学院

剑桥科学史 第三卷(现代早期科学)

这一卷大体覆盖从1490年至1730年的时期,被英语世界的欧洲历史学家们称为“现代早期”,一个预示着事物即将来临的术语。

by:1660423nrjh

孕期产后的科学保健方法

怀孕到生产,孕妇的注意事项,及一些科学有效的医学保健知识,产后康复注意事项和康复要点。

by:何云静

宝妈孕期营养&宝宝科学喂养

生命早期1000天营养攻略、科学应对孩子挑食偏食、催奶秘方、宝宝过敏、生病宝宝应该怎么吃?如何让宝宝爱上吃饭?孩子如何增高?儿童医院权威营养专家临床经验丰富,为...

by:江苏声入人心文化

危情总裁:天价前妻不好惹|全本免费丨茵蔚&煎蛋饼饼双播

【内容简介】靠她的设计图扬名天下的未婚夫婚前出轨,而小三竟然是她的闺蜜!撕破脸后还恶毒的给她下药,庄晓晓可以说是倒了八辈子的霉了。可没想到,一夜过后,那个被她睡...

by:茵蔚有声

极简科学·科学的力量

科学的力量,每天五分钟,搞定小学科学;160课堂,800分钟,高度浓缩的小学科学知识,循序渐进,螺旋上升,让孩子每天花费五分钟,搞定小学科学。内容涵盖小学科学课...

by:圆柱文化