揭秘人工智能图像识别

揭秘人工智能图像识别

00:00
04:51

在上一期节目里,我们提到:人工智能可以做短视频实时分类。短视频里面是广场舞、吉他弹唱,还是头文字D的车技飘移,都可以被AI识别出来。


这是怎样做到的呢?


我们先思考这样一个问题:今天如果你来看视频,你自己,如何识别出里面的车呢?


“车”是一个抽象概念,并不与生俱来,而是在后天的过程中,通过数据的学习训练,逐步形成的。


小时候的看图识字、生活中的观察、驾校培训、好莱坞大片...这些数据,不断地帮助我们构建和完善大脑中的模型:一辆车,应该具有轮子、门、挡风玻璃、尾灯、排气管、后视镜等要素,这些要素之间还有空间关系(当然,除了视觉等采集到的数据,发动机轰鸣声、汽油味等其他感官要素,也是大脑中车模型的组成部分)。

值得一提的是,大脑基于原有模型,还可以吸收新的数据进行叠加学习,比如特斯拉不需要排气管,现在路上见到的绿色牌照是新能源车,等等。


对于一张全新的图像,视网膜采集像素,神经元提取颜色、轮廓等信息,大脑将图像信息与抽象概念进行比对,然后形成了图像中是否有车的判断。


那么,AI如何能做到图像识别呢?

我们很自然想到一种方法,就是模仿人的信息处理过程:通过大量的数据,让计算机形成模型,建立图片与抽象概念之间的关联关系。


我们用一个非常简单的等式,来说明这个过程。

这个等式是:

X * W = Y

这里,X是输入,也就是我们看到的图像;

W是模型,你可以理解为我们大脑中关于车的模型;

Y是输出,也就是抽象概念中的


AI图像识别,有两个步骤:

第一步,学习训练。也就是已知XY,求解W的过程。学习的方法,是找来大量的车的照片,给这些图像都打上这个标签,进行模型训练。打个比方,还没有完成训练的AI,有点像个小孩,你需要给他很多张图片,用这些数据来训练他,告诉他这些都是车,他才能慢慢掌握车的特征。


第二步,预测判断。也就是已知W,给出新的X,求解新的Y的过程。打个比方,已经完成训练的AI,有点像车的专家,因为他见过了太多的车,抓住了车的特征,所以就很容易做出判断,即便是有些新款式的概念车,他也能识别出来。


这样的方法,还可以推广到很多其他的应用场景:

比如机器翻译,左边的X是英文,右边的Y是中文,googleChrome浏览器就可以帮你翻译你看不懂的英文网页。

语音识别,左边的X是语音,右边的Y是文字,苹果的Siri和小米的小爱同学就能听懂你的话

包括更为复杂的自动驾驶等等,其基本原理都是一致的。


总结一下我们今天的内容,其实是一个简单的公式:

X * W = Y

采用海量的标签化数据,人工智能可以被训练出来,帮助我们做预测和判断。


在后续的节目中,我将继续介绍我们身边的科技,感兴趣的朋友们,可以订阅这一专辑,也欢迎你在留言区,分享你的观点,我们共同进步。




以上内容来自专辑
用户评论
  • 贾长生001

    干货,很好,作者加油

    黑科技老K 回复 @贾长生001: 谢谢支持,请继续关注