深度学习这个概念我一说你就明白了_甲小姐说_免费在线阅读收听下载

今天咱们讲的内容稍稍有一些学院派，可能有的小伙伴会觉得不好懂，不过，如果你对未来，对人工智能将带我们走向的那个世界充满兴趣和好奇，甲小姐非常建议你耐心听完：）的确很有意思。

我们已经进入了一个言必谈人工智能的时代，如果你对此稍稍有一些了解，你一定听过一个很重要的概念——“深度学习”。那么，它到底几个意思呢？今天，甲小姐就试着来给大家深入浅出地讲一讲。当然，以下所有的内容，都来自甲小姐对人工智能从业者的采访资料。

正如“学习”是人类的重要智能行为，“机器学习”是人工智能的核心，而“深度学习”是机器学习的一个分支领域，它指的就是深度神经网络技术。

什么是深度神经网络技术呢？

咱们先看看深度学习出现之前的人工智能是怎么玩的。

在深度学习出现之前，人们在研究机器学习时，往往采用的是两步走的方法：第一步，特征提取；第二步，特征分析。比如，当机器学习的对象是声音或者图像的时候，首先，研究者们会把需要机器来学习分析的对象，用人为的理解把它的特征找出来，然后把这些特征提取成一个数学向量，把它放在一个向量空间中，然后第二步，再用数学工具分析它。

这个两步走的方法是可以起作用的，但是想要实现“进步”很难，为什么？因为你的特征是人为提取的，如果你不是在这个领域的资深学者，你不一定能够提取出来最好的特征，而当你希望改进机器学习效果的时候，你就需要重新选择更合适的特征，也就是说，第一步要重新来，而换了新特征后，第二步的分析工具往往也要重新做了——于是呢，研究者们就只能很辛苦很笨重地一遍一遍推倒、优化、重来。

而深度学习所使用的神经网络技术不是这么玩的。

神经网络最原始的初衷是什么？让我们来看一个动物的大脑。

动物的大脑是非常好的学习机器，它的运算被分散在很多小小的单元里，我们称之为“神经元”，它们通过神经突触连接在一起，形成了一个非常复杂的网络——看起来，如果我们知道每一个神经元都在做什么，把它们的输入和输出连接成一个网络，并且掌握一个方法去训练这个网络，就能万事大吉了不是吗？

所以，神经网络最初的动机，在于“模仿人脑的机制”来解释数据，比如去训练一个机器人像人脑一样去解释图像，声音和文本。

然而，可惜的是，神经网络并不能做到真正“仿生”。为什么？

o 首先，我们的神经网络是假设每个神经元里做一个简单的线性运算。为什么是线性运算？因为我们解不了更复杂的系统——我们要做一个“可解的”网络，所以就凑合吧……事实上，我们几乎确定，大脑的神经元里发生的不是线性运算。所以，其实从第一步，人工神经元就已经落后于生物的神经元了。

o 第二，我们做的神经网络是一层一层来的。把这一层的结果，输入到下一层，再输入到更下一层。可大脑是有回路的。当然，现在有一些神经网络也有回路，但复杂性是没有办法与大脑比的。

o 第三，我们的基本假设是，一个神经元的输出只有一个。这个输出分发给下一层的某些个单元，继续进行之后的运算。但我们后来发现，真正的生物神经网络不是这样的，甚至神经突触里面，也有简单的运算功能。

o 最后看看规模：一个人的大脑差不多有2000亿至4000亿个神经元，这个数字已经远远超越了人类今天可以掌握的人工神经网络的规模。我们今天人工仿真的神经元，与人脑的神经元的复杂度、规模相比，估计要差至少5、6个数量级。

因此，我们越去了解生物，越发现，神经网络离真实生物的现实复杂度差的更远。

那么问题来了：与大脑相差这么远，神经网络还管用吗？

科学家们要用结果说话。

值得一提的是，过去几年，斯坦福大学计算机科学系副教授李飞飞提出了一个挑战：ImageNet——一个计算机视觉系统识别项目。她建立起了目前世界上图像识别最大的数据库，一个含有1500万张标注照片的数据库。任何研究者，都可以用他们的数据去训练自己的网络。这为神经网络提供了史无前例的演练场。

于是，人们对这样的网络进行“监督式训练”——一个网络拿过来，给它很多样本，给每个样本赋予一个结果。比如，一个样本是一张有猫的照片，输入是这张照片作为像素的阵列，输出是一个答案“我是一只猫”。在这个过程中，中间每一个参数的产生过程，就是数学求解的过程。人们拿着足够多的样本反复“训练”这个网络，结束之后，参数定了下来，形成了一个极其复杂的非线性网络。

训练一个机器神经网络，有点像这样的过程：你先开始有一个初始网络，先不管它长什么样子，你先预设一个地形，但真理是另外一个样子。接着，你拿了很多大量的经过标注的样本，把它丢进去，让这些样本，像一个一个粒子，携带着从起点到终点的使命——每一个样本，都有摩擦力，它们不断优化着每一个参数，从起点走到终点的过程，帮助你一点点重塑了这个网络……当数以百万计、千万计的样本全部走完的时候，最终的地形出现了：你剩下来的东西，就是一个可以执行任务的网络了——那么此刻就让我们看看发生了什么。

奇迹发生了。

这个东西就像一个怪兽，它藏在一个地方，以前没有人有机会把它身上的幕布揭开来看，直到数据量和运算量上涨了之后，它一下子就露出来了。你不再需要像过去那样，笨拙地去做特征提取、特征分析——因为全部包含在里面了。

包含在里面是怎么实现的？说实话，没有人能够解释清楚。假如这是一片沙漠，猫就在某个沙丘里，你必须让这个照片走来走去，落到沙丘里面。这个过程是语言无法形容的。

神奇的是，用这种方式训练出来的这么深的网络，它是有表达能力的。

人们拿着这种方法，去人工智能的各个领域去试，发现几乎在每一个领域里，都产生了显著的突破：比如，Caltech 101最早做图像识别，好多年，人们可以做到40%，第二年，有人做到了41%，这个人就可以去拿CVPR最佳论文奖了，然后明年有人做到42%了，又拿了一个奖……但深度学习进来之后，第一年就做到50%了，大家下巴都震掉了！还没喘过气来，又过了两个月，60%的出来了……然后就呈现了一片疯狂的状态——人们终于意识到：原来深度学习，只要规模足够大，训练足够丰富，它有能力达到一个非常理想的解。

就拿人脸识别领域来说，这几年，深度学习带给了人脸识别革命性的变化，Facebook的DeepFace，香港中文大学的DeepID，Google的FaceNet，人脸识别领域在全世界都大刀阔斧地进入了“方法大变革”。

这就是为什么，现在做人工智能的公司，几乎都会把深度学习当做强有力的武器。

综上所述，神经网络给了我们一些尴尬的结论：

o 第一，显然，它是可以工作的一种好方法；

o 第二，不是很能解释，它是怎么工作的；

o 第三，未来新的理论该怎么引导它，比如怎么样可以造出更有效的网络？这个很难；

o 第四，我们千万不要认为人脑就是这么工作的！深度学习与人脑有很多显著的差别的。有些结果深度学习已经超过了人，有的还相差甚远。

那么问题来了，是不是因为有了深度学习，人工智能就无敌了呢？是不是此后研究者就再也不用在识别领域上辛勤耕耘，只要给机器不断“喂数据”就好了呢？

这么问的理由很简单，因为“深度学习”似乎承载了大众的格外期待：一个通用的办法去解决所有问题，一个统一世界的世外高人把所有的问题都解决了。

然而，事实上，大众对于“深度学习”的鼓吹并非100%是好事。深度学习虽好，却可能使研究界变得懒惰。

拿语音识别来说，过去的研究者需要很认真地思考人们的语音信号到底应该提炼什么特征，可能几十年一直在琢磨声学，然后突然找到某个特征刚好最能解释现有训练数据，这样做出来的模型就很棒了。而深度学习的方法更加短平、粗暴。让所有人都不再关注问题本身，人们不会再去试图真正理解语言，而是去跑数据。

当媒体、非科研人员每天关注深度学习，对在专业领域默默琢磨事的人是很不公平的——现在好像语音识别的成功都是搞深度学习的人的功劳，这不扯吗？语音识别的成功，是那些在语音领域做了很多很多年，又懂深度学习，又刚好赶上大数据、云计算的机遇，结合起来才做好的。

以自然语言理解和翻译为例，在很早期，很多人研究语言到底怎么回事，规则是什么，很多人做基于语言规则的翻译，但后来发现规则是无穷无尽的；然后到了第二个阶段，是基于统计的，有很多数据，不在乎语言是怎么回事，不在乎规则，这些规则让机器自动学习过来，研究者本身对规则完全不懂；现在的第三代研究者就更不懂了，对所研究的专业领域可能都不太关注了，只关注机器学习，最极端的可能认为深度学习就是机器学习或人工智能的全部，甚至有人提出连数据的标识都不要，完全靠计算，完全结果导向……几乎所有领域的人工智能都经历了这样的过程。

我们可以把人工智能的应用分为3个阶段：

2004年之前，人工智能应用更多是学术界或政府的形象工程，但是Google Translate第一个把人工智能系统做成大规模的to C的产品，放到网上，上亿人每天去使用它，搞来很多数据；

后来到2010年，人们发现到了瓶颈：数据的红利、计算的红利没有了。比如Google翻译，基于大量数据去做，起初很嗨，准确率一下子从60%做到70%到80%，但是后来发现继续加数据的时候，可能又掉到78%了，因为数据既是信息也是噪音；

再之后到2012年，深度学习起了作用，带来了更聪明的学习方法，人工智能又火了一阵子……

那么未来呢？

甲小姐想说，学术界也好，工业界也好，你想做到极致，还是靠两者相结合。纯靠深度学习就像死记硬背一样，不是真正理解。我们不应该过度依赖深度学习，因为这种引导，会影响很多学生的技术价值观。

PS：关注Xtecher微信公众号，回复“深度学习”，甲小姐将为你推荐两篇文章。