大脑的奖励机制

2022-10-01 16:27:5606:29 105
所属专辑:深度学习
声音简介
各位听众朋友大家好,我是主播欧锋,现在为大家介绍美国科学家特伦斯谢诺夫斯基所著《深度学习——智能时代的核心驱动力量》

大脑的奖励机制

Td-gammon 的核心是时间差分学习算法,它受到了动物学习实验的启发。几乎所有经过测试的物种,从蜜蜂到人类,都可以进行关联训练,就像巴甫洛夫的狗一样。在巴甫洛夫的实验中诸如铃声之类的感官刺激之后,就会有食物出现,这会引起流涎反应。经过几次这样的配对之后,仅靠铃声本身就会导致流涎。不同物种在关联学习中对无条件刺激有不同的偏好。蜂非常擅长将花的气味、颜色和形状与花蜜的奖励联系起来,并利用这种学习到的关联来找到当季盛开的相似品种的花。这种普遍的学习方式一定包含了什么重要信息。20世纪60年代有一段时期,心理学家们深入研究了引起关联学习的条件,并开发了解释它的模型。像斯金纳(B.F. Skinner)这样的行为主义学家曾训练鸽子识别出照片中的人类,这就让人联想起对深度学习的训练,但这其中有一个很大的区别。反向传播学习需要对输出层上的所有单元提供详细的反馈,但关联学习只提供单一的奖励信号,即正确或不正确。大脑必须弄清楚环境中的哪些特征能够帮助做出成功的抉择。

只有在奖励之前发生的刺激才被认为和奖励有关联。这是有道理的,相比奖励之后的刺激,奖励之前的刺激更有可能引发奖励。因果关系是自然界的一个重要原则。相反的情况则是条件刺激之后伴随的惩罚,例如撞到脚这一后果,能教会动物在今后避免这类刺激。在某些情况下,条件刺激和惩罚之间的时间间隔可能会相当长。20世纪50年代,约翰・加西亚( John Garcia)表明,如果一只老鼠被喂了甜水,并且在几小时后感到恶心,那么它在接下来的几天都会避开甜水。这就是所渭的“味觉厌恶学习”( taste aversion learning),它也会发生在人类身上。有时,恶心会被错误地关联到摄取的食物上,如巧克力。遗憾的是,巧克力只是与其他东西同时被食用,而不是引起恶心的原因;而由此产生的厌恶感可以持续多年,即使当事人已经理性地觉察到巧克力并不是问题的根源。

多巴胺( Dopamine)是脑干中一组由扩散投射神经元所携带的神经调节剂(见图10-4),长期以来一直被认为与奖励学习有关,但人们始终不清楚它传给皮层的信号是什么。20世纪90年代,我实验室的博士后研究员彼得・达扬( Peter Dayan)和瑞德·蒙塔(ReadMontague)意识到,多巴胺神经元可以实现时间差分学习。这是我科研生涯中最让人兴奋的几个时期之一,这些模型及其预测得以发表,并随后被沃尔夫拉姆・舒尔茨( Wolfram Schultz)及其同事通过猴子的单神经元记录(见图10-5)8和人类脑成像9加以证实。现在已经确定,多巴胺神经元活动的瞬时变化传递了奖励预测误差信号。

1992年,我去柏林拜访了正在研究蜜蜂大脑快速学习的兰道夫・门泽尔( Randolph Menzel),当时我们在灵长类动物的奖励预测误差方面已经取得了一些进展。蜜蜂的学习能力在昆虫界是数一数二的。在访问一朵花几次并得到奖励后,蜜蜂就能记住这朵花。蜜蜂脑中有大约100万个小神经元,很难记录这些神经元的活动,因为它们非常小。门泽尔的小组发现了一种叫作“ VUMMX1'”的独特神经元,它对蔗糖有反应,但对气味没有反应。然而,如果先传递气味再提供蔗糖奖励, VUMMX1也会对气味做出反应。"时间差分学习的多巴胺模型在蜂脑中可能由单个神经元实现。 VUMMX1释放了一种在化学上与多巴胺密切相关的神经调节剂一一奥克巴胺( octopamine)。这种蜜蜂学习模式可以对蜜蜂心理学中ー些微妙的方面做出解释,比如风险规避。如果让蜜蜂在“定时定量的奖励”和“在一半的时间内获得双倍奖励”之间进行选择,蜜蜂会始终选择前者,尽管奖励的平均值相同。多巴胺神经元也存在于苍蝇体内,并且已被证明包含几条用于短期和长期关联记忆的并行强化学习途径。

20191116



用户评论

表情0/300
喵,没有找到相关结果~
暂时没有评论,下载喜马拉雅与主播互动
猜你喜欢
位面任务奖励系统

【内容简介】获得位面系统,穿越各个位面,完成任务之后,获得任务世界的技能和物品。魔法世界任务:1驯服一只九阶巨龙;2培养十位法神……仙侠世界任务:1给吞天兽洗胃...

by:烨烨升辉书院

网游之十倍奖励 | 神级奖励&热血竞技游戏暴富

【小编推荐】获取神级奖励,成就至高主宰!简介:【飞卢中文网独家签约作品】公元2999年,人类能肆意传送到一款名为《神圣永恒》的网游世界里。这款游戏不仅能强身健体...

by:飞卢网游_数据人生

喜马有声体验营完课奖励

【有声体验营完课奖励视频】恭喜你完成了本次的体验课,为了奖励你辛苦的学习,我给你准备好了完课礼包,这个礼包包含:晨练视频和完课奖励视频,请查收哦~希望未来,你可...

by:喜播教育

童心妈合播|奖励的恶果

我们抚育孩子、教导学生和管理员工的基本策略可以归纳为一句话:做这个就能得到那个!我们答应一个五岁孩子,如果他在超市里不吵不闹的话就给他买泡泡糖。我们给十几岁的...

by:妈妈解童心

分红机制

只要分配机制不改变,一切就不会从根本改变。因为,分配机制是一切机制的核心。因此说:敢不敢分,是境界问题;会不会分,是智慧问题。主动分,是聪明;被动...

by:机制大讲堂

乡村|开局种田奖励一个亿

毕业即失业的陈凡,回了老家,被舅舅托孤照顾两个上学的表妹。面对一贫如洗,家徒四壁的境遇,还好陈凡获得了“无限种田奖励系统”,只要种田就能获得奖励!“种植玉米,奖...

by:大黑鞋

国家科学技术奖励条例

根据《中华人民共和国科学技术进步法》,制定《国家科学技术奖励条例》。该条例已经1999年4月28日国务院第16次常务会议通过,1999年5月23日中华人民共和国...

by:改命的羊驼