语音合成的突破：话语网络_深度学习_免费在线阅读收听下载

各位听众朋友大家好，我是主播欧锋，现在为大家介绍美国科学家特伦斯谢诺夫斯基所著《深度学习——智能时代的核心驱动力量》

语音合成的突破

1984年,我在普林斯顿听了研究生査尔斯・罗森伯格( CharlesRosenberg)关于玻尔兹曼机的演讲。虽然这通常是我演讲的题目,但这段演讲还是令我印象深刻。査尔斯问他是否可以去我的实验室参与个夏季研究项目。他来到巴尔的摩时,我们已经转向了反向传播领域,这让我们有可能考虑现实级别的问题,而不是之前处理的那种玩具级别的问题。由于查尔斯是传奇语言专家乔治・米勒( GeorgeMiller)的学生,我们想寻找一个恰到好处的语言问题,既不会难到完全找不到头绪,又不会容易到存在现成的解决方法。语言学是个具有许多分支学科的广阔领域,例如:音韵学( phonology)、涉及单词的发音;句法学( syntax),研究单词在一个句子中是如何排列的;语义学( semantics),研究单词和句子的含义;还有语用学pragmatics),研究语境是如何影响语义的,等等。我们决定从音韵学开始着手。
英语是一种特别难发音的语言,因为规则很复杂,并且有很多例1外情况。例如,如果一个单词的最后一个辅音后面跟着一个不发音的字母"e",则元音大多数情况下都要发长音,如“gave”和"bmve但是也有例外,例如"have",这个词的发音就与之前的规则相悖bei。
我在图书馆找到了一本书,在书中音韵学家编纂了这些规则和例外厚达数百页。通常例外情况中也会有规则,而有时例外的规则中还存在例外情况。总之,对于语言学家来说,“一路下来”都是规则。更让人抓耳北挠腮的是,同样一个单词,并不是每个人的发音都一样。还存在很多方言,每种方言也都有自己的一套规则。

杰弗里辛顿在我们计划的早期阶段到约·霍普金斯大学拜访了査尔斯和我,跟我们说他认为英语发音太难掌握了。所以我们收小了野心,找了一本总共有大约100个字的儿童早教读物。我们设计的网络有一个由7个字母组成的窗口,每个字母由29个单元(包含空格和标点符号)表示,共203个输入单元。研究目标是预测窗口中间位置那个字母的读音。输入单元与80个隐藏单元相连,隐藏单元又投射到26个输出单元,每个输出单元对应一个基本发音,在英语里被称为“位”( phonemes)。我们把该字母发音网络叫作“话语网络”(见图8-2)。°网络中有18629个权重,按照1986年的标准衡量,这是个十分庞大的数字。而按照当时的数学统计标准来看、根本没法进行操作。有了这么多的参数,我们被告知训练集可能会被过度拟合导致网络无法泛化。
当单词在有7个字母的窗口中依次穿过时、网络为窗口中位于中间的字母分配了一个音位。项目中花费时间最长的部分,是手动将音位与正确的字母相匹配,因为字母的数量与每个单词中音位的数量不同。相比之下,学习过程就发生在我们眼前,其表现随着句子在窗口中循环而变得越来越好。当学习收敛时,网络在有100个单词的训练集中的表现堪称完美。虽然对新单词进行测试的效果很差,但由于我们对在这样一个小的训练集上成功泛化的预期并不高,所以这个初步结果仍然令人鼓舞。

随后,我们使用了含有2万个字母的布朗语料库( Brown Corpus)2并为每个字母指定了音位以及重音标记。字母和声音的对应工作花了几周的时间,但是学习开始后,网络在一个晚上就吸收了整个训练集的信息。那么它能进行泛化吗?结果证明,泛化的结果非常漂亮。该网络已经发现了英语发音的规律性,并且可以识别出例外情况,所有这些都是基于相同的架构和学习算法。虽然按照今天的标准来看,这成果微不足道,但我们的网络很好地证明了反向传播网络如何能够有效地表征英语音韵。这是我们得到的第一个暗示,即神经网络学习语言（符号表征的典型代表）的方式和人类的学习方式相同。

20191004

语音合成的突破：话语网络

语音合成的突破：话语网络

用户评论