揭秘人工智能图像识别

2022-07-17 11:14:0704:51 1703

声音简介

在上一期节目里，我们提到：人工智能可以做短视频实时分类。短视频里面是广场舞、吉他弹唱，还是头文字D的车技飘移，都可以被AI识别出来。

这是怎样做到的呢？

我们先思考这样一个问题：今天如果你来看视频，你自己，如何识别出里面的车呢？

“车”是一个抽象概念，并不与生俱来，而是在后天的过程中，通过数据的学习训练，逐步形成的。

小时候的看图识字、生活中的观察、驾校培训、好莱坞大片...这些数据，不断地帮助我们构建和完善大脑中的模型：一辆车，应该具有轮子、门、挡风玻璃、尾灯、排气管、后视镜等要素，这些要素之间还有空间关系（当然，除了视觉等采集到的数据，发动机轰鸣声、汽油味等其他感官要素，也是大脑中车模型的组成部分）。

值得一提的是，大脑基于原有模型，还可以吸收新的数据进行叠加学习，比如特斯拉不需要排气管，现在路上见到的绿色牌照是新能源车，等等。

对于一张全新的图像，视网膜采集像素，神经元提取颜色、轮廓等信息，大脑将图像信息与抽象概念进行比对，然后形成了图像中是否有车的判断。

那么，AI如何能做到图像识别呢？

我们很自然想到一种方法，就是模仿人的信息处理过程：通过大量的数据，让计算机形成模型，建立图片与抽象概念之间的关联关系。

我们用一个非常简单的等式，来说明这个过程。

这个等式是：

X * W = Y

这里，X是输入，也就是我们看到的图像；

W是模型，你可以理解为我们大脑中关于车的模型；

Y是输出，也就是抽象概念中的“车”。

AI图像识别，有两个步骤：

第一步，学习训练。也就是已知X和Y，求解W的过程。学习的方法，是找来大量的车的照片，给这些图像都打上”车“这个标签，进行模型训练。打个比方，还没有完成训练的AI，有点像个小孩，你需要给他很多张图片，用这些数据来训练他，告诉他这些都是车，他才能慢慢掌握车的特征。

第二步，预测判断。也就是已知W，给出新的X，求解新的Y的过程。打个比方，已经完成训练的AI，有点像车的专家，因为他见过了太多的车，抓住了车的特征，所以就很容易做出判断，即便是有些新款式的概念车，他也能识别出来。

这样的方法，还可以推广到很多其他的应用场景：

比如机器翻译，左边的X是英文，右边的Y是中文，google的Chrome浏览器就可以帮你翻译你看不懂的英文网页。

语音识别，左边的X是语音，右边的Y是文字，苹果的Siri和小米的小爱同学就能听懂你的话

包括更为复杂的自动驾驶等等，其基本原理都是一致的。

总结一下我们今天的内容，其实是一个简单的公式：

X * W = Y

采用海量的标签化数据，人工智能可以被训练出来，帮助我们做预测和判断。

在后续的节目中，我将继续介绍我们身边的科技，感兴趣的朋友们，可以订阅这一专辑，也欢迎你在留言区，分享你的观点，我们共同进步。

用户评论

干货，很好，作者加油

谢谢支持，请继续关注

音频列表