话语网络与生物信息学

2019-10-04 10:56:3706:52 146
所属专辑:深度学习
声音简介
各位听众朋友大家好,我是主播欧锋,现在为大家介绍美国科学家特伦斯谢诺夫斯基所著《深度学习——智能时代的核心驱动力量》

话语网络与生物信息学

在获得了大声朗读的能力后,话语网络首先经历了一个胡言乱语的阶段,成功识别了辅音和元音之间的区別,却将音位“b”分配给了所有辅音,将音位“a”分配给了所有的元音。刚开始,它的发音听起来像“baba",经过更多的学习之后,发音偏向了“ ba ga da"。这种现象与婴儿咿呀学语的状态非常类似。之后它开始能够正确地说出短词的发音,最后在训练结束时,我们已经可以听懂它说的大多数单词了。

为了测试话语网络在方言上的表现,我们找到了一个来自洛杉矶郊外的拉丁裔男孩接受采访时的音韵翻录材料。训练有素的网络重新创建了一段该男孩带有西班牙语口音的英语,谈论的是他探望自己的祖母时,有时会得到糖果。通过将话语网络的输出播放到一个叫作“Dectalk”"的语音合成器中,一串音位标签被转换为可听的语音,我记录下了学习阶段中的一系列语音片段。当我在某次演讲过程中播放这段录音时,台下的观众彻底震惊了一这个网络直接证明了它的语言能力。这个暑期项目的结果完全超出了我们的预期,并成为神经网络学习领域的第一个实际应用。1986年,我带着话语网络参加了《今日秀》( Today show)节目,那一期的收视率很惊人。在此之前神经网络一直是一门神秘的学科。我还遇到过很多人,他们在观看这个节目时是第一次听到神经网络这个概念。

虽然话语网络有力地证明了一个神经网络的确能够对语言的某些方面进行表征,但它并不是反映人类如何获得阅读技能的优质模型。首先,我们在学习阅读之前就先学会了说话。其次,有限的几个语音规则就能帮助我们开启大声精确朗读的复杂任务。但是,大声朗读很就变成了快速的模式识别,并不需要有意识地应用规则。大多数会说英语的人都会在阅读刘易所・卡罗尔( L ewis Carroll)的诗Jabberwocky时,不由自主地读出" brillig"、" slithy”和" toves”等无意义的词,就像读正常的词一样,话语网络也是如此。这些虚构的词不存在于任何字典中,但是可以触发由英语中相关字母模式组成的音位。

活语网络给观众留下了深刻的即象,不过现在,在尔斯和我需要对这个网络进行分析,弄清楚它到底是如何工作的。为此,我们对隐藏单元中的活动模式进行了聚类分析( cluster analysis),并发现话语网络察觉到了相似的元音和辅音的分类,这和语言学家们已经识别出的分类相同。马克・塞登伯格( Mark Seidenberg)和詹姆斯·麦克菜兰采用了一种类似的方法作为研究的起点,将其与儿童在学习阅读时经历的一系列阶段进行了详细比较。

话语网络以出人意料的方式影响了这个世界。作为约翰·霍普金斯大学托马斯・詹金斯( Thomas C. Jenkins)生物物理系的一名教员,我开始对蛋白质折叠的问题产生了兴趣。蛋白质是由一系列氨基酸折叠成的复杂的结构,该结构赋予了蛋白质广泛的功能、例如血红蛋白,它能够与血红细胞中的氧结合。根据氨基酸序列来预测蛋白质的三维形状是一个难度很高的计算问题,对大多数蛋白质来说、即便使用功能最强大的计算机也没办法实现。然而、,有一种单元结构相对更容易预测,被称为二级结构( secondary structures)在二级结构中氨基酸以螺旋、平面或无规卷曲的方式缠绕。生物物理学家们使用的算法考虑了不同氨基酸的化学性质,但他们的预测还不足以解决三维空间的折叠问题。

钱宁是我实验室的一年级研究生,他是1980年在中国所有物理系的学生中,为数不多被选中来美国攻读研究生课程的人之一。我们想知道,如果为每个氨基酸分配螺旋、平面或无规卷曲的参数,话语网络是否可以通过一串氨基酸序列来预测蛋白质的二级结构。这是个重要的问题,因为蛋白质的三维结构决定了它的功能。输入由字母序列变成了氨基酸序列,而预测的结果由音位变成了二级结构。训练集是由X射线晶体学确定的三维结构。让我们意想不到的是,它对于新蛋白质的二级结构的预测,要远远好于基于生物物理学的最佳方法,这一具有里程碑意义的研究是机器学习在分子序列中的首次应用,该领域现在被称为生物信息学( bioinformatics)。

20191004


用户评论

表情0/300
喵,没有找到相关结果~
暂时没有评论,下载喜马拉雅与主播互动
猜你喜欢
网络与信息安全

内容包括网络与信息安全的概念和术语;密码学及加密技术的使用;操作系统、数据库和网络的安全:公钥基础设施、访问控制、系统审计、入侵检测、计算机病毒的防御、电子邮件...

by:大脑改造计划

生物信息学

生信分析无处不在,这个理论基础需要查查了

by:飞鸿惊雷

每日10分钟|《网络信息安全》CISP

《信息安全》软考等级认证考试,很好的辅助学习材料。本专辑从:信息安全保障、网络安全监管、信息安全管理、业务连续性、安全工程与运营、信息安全评估、信息安全支撑技术...

by:网络安全专家_Soros施

图与网络

主要阐述网络最优化问题中运用的一些重要的图论方法和用图论方法解决的实际问题,如最小连接问题、最优线路问题、工作分派问题、网络流问题,以及图的染色和标号在实际中的...

by:大脑改造计划

信息论与编码

重点介绍由香农理论发展而来的信息论的基本理论以及编码的理论和实现原理。在介绍了有关信息度量的基础上,重点讨论了信道容量、率失真函数,以及无失真信源编码、限失真信...

by:大脑改造计划

生物化学与分子生物学

一轮复盘小亮西综生物化学知识点,用讲课的方式来及时复盘。生化最难的代谢和基因要重复练习。第一章只是后续的引子。

by:雷classmate

生物化学与分子生物学

完结撒花,怎么会有人更新了三年才勉强更完一本书,太不容易了

by:琴呓绵绵