《什么是神经网络和机器学习》人工智能博士李卓桓

《什么是神经网络和机器学习》人工智能博士李卓桓

00:00
46:35

《立志朋友圈》节目本期访谈的嘉宾是人工智能领域的投资人和技术专家李卓桓,听他来给大家分享下人工智能领域的神经网络和机器学习技术原理的话题。


本期嘉宾简介:李卓桓 PreAngel投资 合伙人

水木清华BBS站长,程序员。连续创业者,活跃天使投资人,技术背景。Zixia BBS、优酷网(首席科学家)、叽歪网创始人。清华大学本科,中欧国际工商学院EMBA。中国青年天使会创始理事,中关村天使投资协会副秘书长,快创学院副院长,快乐投资学院联合创始人。投资了包括: IT 桔子、互动吧、微差事、蓝信、时光小屋、抹茶美妆、约你、蒲公英、中羽联等数十家移动互联网初创公司。清华企业家协会移动互联网副主席,中欧移动互联网协会发起人。作为LP 投资了中美多支天使基金,快乐投资学院导师、中关村天使投资协会副秘书长,中国青年天使会创始理事,多家创业公司和VC机构顾问。有过20 年编程经验,曾任ChinaRen系统工程师。著有《Linux 网络编程》、《反垃圾邮件完全手册》技术作品。


以下为访谈文字实录:


尹立志:

各位朋友,大家好。学点新知识,交点新朋友,欢迎大家来到《立志朋友圈》。最近人工智能非常的火爆,从国家的一个接一个的战略的举措和支持政策发布,到我们立志朋友圈一个又一个的人工智能前沿创业者的采访。那确实人工智能从很遥远的我们的一种想象,到已经逐渐的融入到我们生活和工作中来的一种新的生活方式,和技术变革方式已经来到了我们面前。那最近听了我节目的一位朋友找到我,而且是一位单身的美女,她跟我提出这么一个请求,她说立志,我觉得人工智能你的节目还很有意思,我也看到一些前沿的这个创业者,知道了一些很有意思的产品,她说你能不能帮忙找一个人来讲一讲技术,而且她开玩笑地跟我说,她说你要是能满足我对技术这三点要求,你这个节目就必定会火爆我们喜马拉雅,她说什么要求呢?第一个,我是个学文科的女生,你最好这个技术,让我都能听得懂。第二个,你要讲的这个技术,最好还是人工智能里边最关键的核心技术。第三个,她说你这个讲技术,你还不能光就技术讲技术,你还能够从商业投资和行业以及人类角度,再去聊一聊整个话题,听起来让我们觉得会更有兴趣。


她开玩笑这么一说,其实一说完,我脑海里面立马就浮现出一个人,这个人非常适合讲这个话题,而且他绝对是中国乃至全球在人工智能方面的顶级科学家之一,他是谁呢?他就是我们快创学院的副院长,也是我本人特别好的朋友,李卓桓,他那本科毕业于清华大学,而且又在中欧商学院上的EMBA,最近据说他考了一个特别火爆的学位,是什么呢?人工智能的博士学位。而且他不单单只是做学术研究和技术开发,他目前也是PreAngel的天使投资的投资合伙人,而且投了几十个人工智能方面的项目。当他在做投资之前,他其实是一位科学家,他是优酷网的前首席科学家,也是人人网的联合创始人,当然他也是我们快创学院,最受欢迎的导师之一。他在我快创一共连续开了六个关于移动互联网方面的创业总裁班。


那么今天很高兴,请到李卓桓老师,也来到了我们快创学院举办的首次快创人工智能沙龙,所以今天的节目将会是我们李卓桓老师同步、录音、录制,在我们西玛拉雅上播放,也会是我们快创人工沙龙,现场朋友们非常好的一次和李卓桓老师面对面的一个交流互动的机会,好的,那么接下来我们热烈掌声有请我们李卓桓老师来给大家分享一下,在机器学习以及神经网络方面的一些技术,以及李卓桓老师对人工智能的一些前沿观点。


李卓桓:

好,那接下来今天我就给大家来按照立志的要求给大家介绍一下人工智能的一些我的观点,做一些分享。

首先,这个标题没改,所以这是一个老版本内容基本差不多。这里面讲的,人工智能这个时代在我们现在已经来了。但是我们大家要注意,它其实还处在非常的早期,我把它叫做人工制造时代。这个是我在今年年终的时候做的一个分享的时候起的标题。当时还没有太多的人工制造的说法出来,但我讲完了之后大概过了两个月,我发现到处都是人工制造,不知道是不是受到了我的启发?那么从人工智能的角度来讲,大家最近应该是从李世石从AlphaGo开始受到了所有大众的一种关注,但是其实人工智能整个的这个技术发展领域和它的实际应用场景是从不同的角度看是不一样的。那么这张图是我非常喜欢的一个这个deeplearning深度学习研究生的这么一个不同角度的这个看起来的样子。如果大家有程序背景的话会发现这个所有的工程师都是在对着电脑敲键盘,但是其实工程师们自己觉得自己很酷,他觉得自己每一个人都觉得自己是钢铁侠。从数学角度来讲,其实机器学习、人工智能的工程师做的只有一件事就是在优化数学的这个叫做凸函数找最优值。那到了这个人民群众,人民群众会怎么样呢?


人民群众觉得人工智能要统治世界了,强人工智能已经要灭掉人类。那么我最喜欢的一个角度其实是从右下角这个角度来讲,事实上我在做什么?大家如果想来做人工智能,那么我觉得这张图是最有启发意义的就是现在的人工智能既没有很多人想象的那么强大,也没有很多人想象的那么无聊,其实它已经能够起到很多作用,只不过是说它的作用是非常的局限性。像什么呢?像是乐高积木块一样。乐高积木块的特点是乐高积木块都很简单,很小。但是我们可以用它来搭出飞机、大炮、城市、各种各样的东西。其实现在的人工智能发展的阶段就是我们已经有很多的科技,能够实现一些基本的,解决一些基本的问题。但是它是局限在某些特定的领域的,必须这些特定的领域做了之后,大家才能够来,就是在这个特定领域才能够做好。那么像刚才有一个同学做猪脸识别。这个甚至于把这个昌顺。猪脸识别。最近如果大家知道的话有一个京东的比赛三十万的奖金。对。单项奖。


不是吗?你没有参加吗?我看到那个猪脸识别的时候,我好开心。猪脸识别这个听起来就很炫酷。以后,如果你说你得猪脸识别的冠军岂不是这个可以拿出去吹牛的一件事情?然后我就去看了它的那个数据集。其实它不是识别猪脸,反正就是一个猪在里面走来走去识别,难度还挺大的我觉得。对,但是其实如果做好了会特别好。究竟哪头猪?因为在几年前我们就想过说它的问题就是养猪的人希望随时知道每一头猪它干了什么?或者说这个猪它在杀的时候这个肉它以前是什么样的?一种这个叫做生物的识别性。对。溯源性。是吧。


而且另外一个像刚才这个做法律的做人工智能的,你肯定知道咱们的最高法可能已经播了有一百亿那么多的钱,就是要把所有的中国的这些文案和判决书和相关的东西。做。我听到的一个消息是说因为大家都知道这些项目是层层往下包,一百亿怎么能够直接到我们在座的屋子里面同学身上呢?对吧?一定中间有转包。有一些比如大的国企,比如很大的一些这个上市的这些外包公司,他们放出来的话如果你能搞定的话多少钱我都可以合作,可以买。因为上面的利润实在是太高了。很多的机会都可以做。那么我自己的介绍就不多说了。总之在去年我开始研究人工智能之后,基本上我就不再看移动互联网领域的项目,因为在如果说1997、1999年的时候是互联网时代的第一浪的话,那么在2005年的时候就是web2.0的第二浪,在2010年前后就是移动互联网的第三浪,到了今年的时候其实过去的所有的无论是互联网还是移动互联网都已经从一个新兴的高科技变成了像今天的空气和水一样,那么未来的机会究竟在哪,更不要说其实互联网本身只做了一个很简单的事就是连接,大家都知道连接,它连接能够产生价值的地方它就会创造价值,但是接下来该连接的都连好了,我们需要做的是解决问题的时候,就得靠人工智能来做更多的事,所以从去年开始我从开始研究人工智能之后就决定接下来只关注人工智能的项目,简单来说,现在我看的方向就是在做聊天机器人叫做chatbot,chatbot里面应用到的技术最核心的就是文本处理,语义理解、语义识别以及和后面的互联网的应用来做对接,那么前面无论是自然语言理解叫做NLU自然语言理解,然后乃至于说一些意图识别这样子的核心做的这个聊天机器人。那聊天机器人有一个最大的特点,它和其他的人工智能不一样。如果大家去刚才走过来的时候是从就咱们路过的这个左手边会有一个公司,大家看到好多机械手,其实它也是人工智能的公司,它也在做很厉害的东西,但是做这个东西它有几个很大的限制,这是为什么我在移动互联网的时候我就喜欢看线上的东西,而不喜欢看线下的东西。如果你是做和硬件相关的人工智能,比如说像最厉害的就是波斯顿动力的那个公司,它太厉害了,但是你想一想你去做那样一个机器人,你的成功有多高对吧?然后如果你要去迭代它,你要把它重新做一遍有多难,那么你在训练它的时候你再去让它学习的时候对场景的要求有多高,所以它是成本非常高的一件事情,那与之对应的就是一些完完全全地再现技术或者是在线的能力的这些东西,如果用人来讲的话,可能其实人分为两块,一个叫做精神,一个叫做肉体,这个是很常见的分法,但是如果说到了从我们人工智能领域来讲,其实它有一种是你究竟你的大脑里面的思维,你的能力在不在?另外一个就是你对外的和物理世界的接口的躯体在不在,那么如果和躯体有关的就一定涉及到高成本,迭代慢,而且风险会很大,因为受限于很多其他的比如说各种关节,各种材质能量受到限制会非常非常的多,但是如果只是看这个脑子里面的这些能力,比如说你无论是说语言理解、图像识别、这种东西就只是我经常喜欢说的,就一个程序员坐在办公室里面对着电脑敲键盘就可以了,非常容易的一件事情,所以聊天机器人会是我主要看的一个方向,那么在我去计划读博的这个方向里面也基本上都是以如何去做一个叫做chat UI来替代掉现有的我们的UI的这么一个方向,这样的,这个方向很有意思的。


其实大家可以了解一下,过去的电脑我们都叫做有界面,有界面是什么样,大家每个人拿出手机点开一个APP都是我们点,我们点击这儿都有一个什么样的效果,点击这儿会有什么样的效果,它一定要给你做一个界面之后你才能够去把你想让它做的任务给完成,为什么是这样的?因为除了这个以外它没有别的办法能够让你去实现这个功能。它没有智力,它只能用界面来做,所以这个叫做有界面无智能。从我们最开始的倒置是文字的,到我们后来的人图形界面是有菜单的,到最后我们的手机上面是直接在屏幕上面可以做触屏,都是需要你去点的,但是其实我们想一想,更多的时候我们完成一个任务,举个例子来讲,我最喜欢举个例子,如果是携程大家去携程APP上去订票,大家需要点多少下?很多很多下对吧?很多很多下,但其实这个事如果你有一个助理来帮你做的话,可能你只要在微信上跟他说一句我明天要去上海,这个下午3点到虹桥帮我订一下机票,然后助理会怎么样回答大家?好,好完了之后呢?自己去处理,对,自己处理完了之后他会告诉你对吧,已经搞定了,航班是UCA123,你去坐吧,没有了对不对?所以简单来说就是你一句话过去,那边一句话回来这个任务就完成了,和携程的APP比起来这是一个非常非常质变的,大家如果去多想一想的话,你可以去在很多的场景里面都找到这种界面的革命性的变化,而这种变化最自然的方式,用我们人类的方式,用现在的人工智能可以看得见的电脑已经可以去实现这样的功能了,所以这就是聊天机器人在未来的一个机会,我们叫做chatUI聊天的界面,你只要跟他说话就好,所以这就是我开始只看这个人工智能了。


那么做人工智能当然是因为我个人爱好很多了,这个我喜欢飞伞,跳舞,打拳,跑步,可能有些同学已经知道了,那么这里我就喜欢总给大家推荐的一个课,也是我上过的课,刚才和大家说过叫做这个Machinelearning,在Coresoura上面。有这个世界非常风头正劲的科学家叫做安卓NG胡恩达他做的,Angle NG是斯坦福的教授,是googleBrain的联合发起人之一,也是百度大脑的这个联合发起科学家之一,现在是自己创业,同时这个哥们也是Coresoura这个网站的联合创始人,所以Coresoura这个网站是全球最知名的在线教育网站平台之一,那么他在自己平台上面的课是非常非常用心的,所以非常棒,所以我会推荐大家去上,我也是在这门课上去这个入门的。


好,那么接下来就给大家讲两块,我给大家分享两块一个,深度神经网络的发展,可能要快一点说里面涉及到一些简单的数学知识,一带而过就好了,然后我会给大家分享十个机器学习能解决问题的例子,这里面主要是想讲一讲说其实在我们的这个每一个人做的公司的里面都有很多的点,是可以用人工智能来帮我们解决的。那首先就是说神经网络神经网络为什么这个大家都叫神经网络,如果已经做这个方向的同学可能已经了解了,但是不了解的同学就看一下这个,它很基本它就是从人脑里的这种神经元,这是我们的人脑的神经元,人的神经元就是很多很多这样的神经元,通过这种这个输出连接在一起,从上面得到别的神经元兴不兴奋的信号它才决定自己兴不兴奋就这么简单,那么把它摘出来的就是这样的,每一个神经元上面都有输出是连接别人,上面这输出知道别人兴不兴奋,然后他通过自己的这个细胞就决定自己兴不兴奋,简单点说就是上面别人根据别人的兴奋决定自己的下面兴不兴奋,然后科学家就说了那好简单,我只要把它模拟出来就好了,上面别人的输入就是一堆X1,X2,X3,大家如果还记得初中数学的话就是一堆变量,那么这类变量找到一个数学公式,数学公式就是这个圆圈。把这个X1,X2,X3加起来,每一个成一个系数就aX1,bX2,cX3,大家有一点点印象对不对,所以这个公式里面,核心的数据就是说ABC这些直取多少,然后把这些ABC和他们相乘加起来之后,就得到了下面的一个值,这个大家都OK吧?还记得初中数学对不对,那么也就是说aX1加bX2加cX3加到加完了之后,通过这个公式得到了一个输出,它就根据这个输出决定兴不兴奋,什么时候兴奋,什么时候不兴奋,大于一个数据兴奋小于一个数,就不兴奋也很简单,对不对。所以神经元基本上,科学家们就搞出了一个这样的东西,说好我们能模拟神经元了,那么有了一个神经元,大家如果是一个圈是一个神经元的话,那就是一个这个是一个神经元一个神经元,接收,三个输入有一个输出,那我还可以还可以加多个,第二个神经元,三个神经元便一个输出在一个神经元便一个输出,所以他就会用很多的神经元组合起来往外做输出,数学上面呢也是一样的,每一个相生相加得到一个输出,所以讲这个原因是因为大家总听到深度神经网络,神经网络,深度学习,这里面所有的细节最终扣出来的话,它都是由这样的数学模型所堆叠起来的。大家还记得最开始我说的这个乐高积木块,在所有的神经网络里面,这个东西就是他的最基本的积木块,所以大家无论看到任何复杂的神经网络,不管是做图像的文字的还是声音的,它里面的核心的原理都是基于这个而构建的,可能略有出入,那么这里边给大家举个例子,很典型的就是说识别物体,时识别图片里面的物体,这里面,有一个是行人、车、摩托和卡车,怎么把这些图片到最终识别出来?做这么一个神经网络,我们看看它的输出是什么输出就有四个不同的结果,这个行人就是说如果是第一个神经元兴奋,就说明前面看到的是行人,如果是第二个神经元兴奋说明看到的是车,第三个神经元兴奋说明看到的是摩托,诸如此类的,那么这个图片怎么丢个神经元,图片很简单,图片的每一个像素,每一个神经元的输入就蓝色的圈,代表神经元的收入对应到这个图片的像素上面就可以了,很简单吧,如果这个图片是100乘100的分辨率的话,有多少个像素。

1万个。

1万个像素对吧,那么1万个像素就意味着里面有多少蓝圈。

1万个像素每一个圆圈对应一个像素。

要有1万个。

要有1万个篮圈对吧?好1万个篮圈,那这个这个黄色的圈,就需要把前1万个像素的值,在这里面做一个加法对吧?它每一个只需要有一个对应的参数,所以这个圈里面有多少个参数。

在网上有很多实现这么一个东西,大家如果关注人工智能,会发现最近有一个红杉投了有好像近千万美元的项目,就做这个的,好像是我没仔细看,大家感兴趣,可以查一下,他肯定不是最早做的,那是一个中国的创业项目。是一个中国的创业项目,刚刚拿了红杉中国得很多钱,大家可以去找一找,最近发出来它们其实本质上就是做这个的,但它们经过包装之后做成产品,然后做了很多其他的东西,然后就拿了很多的钱,大家可以想一想,其实有很多的点都可以去做的。那么包括把我们的一个普通人变成一个卡通形象的版本也会有。那么第八个例子就是说那神经网络有这么多知识了,我们小时候可能或者说见到一些小朋友都会有一些印象,是小孩躺在夏天的草地上,看着蓝天白云都会觉得这里面有一条龙,这里面有一只兔子,把天上的云彩都能够想象出来一些自己的样子,那么如果一个神经网络看了非常多的我们的图片之后,我们也告诉它是什么给它这样一个蓝天白云的图,它会觉得里面有什么呢?google的实验室就做了一个叫做deepdream的一个神经网络,它就通过学习完的图片,在右边看这个蓝天白云,得到了这样一个结论,他看到了各种各样奇怪的东西,那么究竟是什么呢?我们给它放大一些。这里有三个例子,如果是在左边这个山水里面,我们可以看到一个,他好像看到了一个庙。这里面有一棵树。树他好像看到了一个更热闹的妙,右边有一个好像是向日葵还是什么样的东西,他看到了,觉得好像有几只奇怪的鹌鹑还是鸡,什么样的动物对吧?其实这是神经网络,通过它的知识,它觉得这个画里面有什么,它可以去重现这个。好,第九个例子其实是比较有意思的,这个也是我很喜欢说的,是我指导的一个计算机系的研究生,也是从来以前没有做过深度学习神经网络的,他用大概几个月的时间,帮助我投的一个项目,实现了在图片里面寻找特定货品的一个功能,并且可以计数,这个例子的就是我们拿出一个货架,超市的货架,我们问他说有多少瓶这样的海飞丝,神经网络就可以帮你给它点出来。那么它的实际应用场景是什么呢?这个场景的需求是我之前天使过的一个项目叫Vchating,他们做的。他们Vchating这个APP简单来说就是帮很多品牌调研公司,能够把这个调研任务通过移动互联网发到某一个特定地理位置附近的用户,那么用户,装了这个APP之后打开之后就可以看到很多任务,譬如说请你去最近的家乐福超市把所有的这个有宝洁货品的货架给我拍好照片传上来之后,就给你十块钱。很简单,而且用户也很开心,我逛超市的时候我就多赚十块钱吧,相当于打折了。那么这些任务本来是由这种叫做神秘顾客的人去做的,就是品牌调研公司会派很多人出差去做,现在通过这种平台就可以很容易的把任务分下去,但是与此而来带来的问题是,他可能一夜之间就收到了全国所有家乐福超市的海飞丝的货架照片,如果它一夜之间收到了全国所有的这种货架照片,可能就有几万张,那么它接下来怎么样统计分析这些货架上这个东西,其实对它来讲变成另外一个新的问题,对吧?

1万个。

前面有1万个,他就1万个,那如果这里面有1万个神经元的话,每一个神经元里面有1万个参数,这些神经元里面一共有多少参数。

1万乘1万对吧?好就是说100×100如果大家手机里的照片现在都基本上什么五兆,就500万像素800万像素我们如果假设这是一个1000×1000的图的话,这里面有多少个这个像素。

100万。

100万对吧,100万的话,这里面就有100万个,那么这里面也有100万个每个里面有100万个参数对吧,那么这里面所有参数有多少。

100万乘以100万对吧,然后还有还有一层大家,还有一层,所以通过这种复杂的神经网络的堆叠,但是这里面其实很简单,大家已经理解了,都是那种这个神经元的,这种相加相乘,最后输出决定性不兴奋,一层层堆叠下来,他就实现了在数学上面的一个叫做非线性离合。这种功能就很强大了,但它能够非线性愈合的时候就可以变得很复杂,最终就可以达到把这个像素从这输进来,这是一个人嘛,就会发现这个神经元的输出值会特别的大,代表着它就开始兴奋了,它比别人兴奋,就意味着这个图片里面有人的概率最大,所以神经元网络就是说里面有个人,大家理解了吧,如果放一个摩托,把这个摩托放进去,算算算相加,最后得出来那个值,发现这些值里面最大的是谁,最大的是第三个摩托,所以神经网络就说了,我看到了一个摩托,很简单,它的原理就是这样的,所以经过这样的话我们就可以看到整个的神经网络的发展史里面,刚才我们说的这种图片识别就是在这,第三次CNN兴起是在2012年,而AlphaGo是在它之后,AlphaGo之所以能做也是因为第三次NA的兴起,带动了很多的这种研发的力量,那么在2012年的时候为什么CNN会火起来,就是因为它在评测里面,在物体识别领域里面,它达到了一个飞跃,它当年比过去的最好成绩提升了百分之十几,这在学术领域是很可怕的,然后一直到接下来几年,从2012年开始每一年都提升百分之十几,一直到最后现在的图片识别的准度是98%左右,也就意味着一百张图片拿给神经网络去看,神经网络会看错两张,大家知道人的错误率是多少吗?平均来讲,给在座的大家看一百张照片会有几张看错?五张是吧,谁说的?那你是看过这个资料对不对?看过,五张是人的一个平均值,所以他就超越了人类的能力,当它超越了人类的能力的时候,这个大家就更有理由沸腾了,那当然说现在的神经网络已经有更多的都超越了人类,比如说翻译,翻译其实已经接近人类了,但是像还有什么来着,反正很多地方都已经超越了人类,那么这里面就代表了有三次兴起,三次兴起其实本质上就是神经元变得越来越复杂,从一个单独的神经元到了一个神经元,做了两层,变了三层,变了很多很多层,在我们现在最好的识别系统里面,这个层数能够达到150层,150层大家想一想,刚才我们说每一层如果说有100万个参数的话,150层是非常巨大,这种巨大的这个数学运算就是限制神经网络发展最大的一个问题,所以到现在神经网络能够发展,本质上的因素是因为我们今年的计算力是飞速提升,应该感谢那些打游戏的人,他们让我们的这个数学计算的显卡越来越厉害,所以才能够从最开始的单层神经网络到我们用CPU计算的可以有几层神经网络,到我们现在深度这些网络里面有这种集群或者GPU。


好,那么大家现在了解的基本的神经网络的一些基础,我们就看看有趣的地方,是我看到这个很有趣的一些好玩的点。摘录在这里面,第一个是我这是我的favourite,就电脑写作,大家应该有些人会看过这个东西,但是如果是现在,大家正在仰着头看说明可能以前没看过,它做了一件什么事,就是用深度神经网络来学习人类写出来的文字,可能给它一百兆的文字,让它去学,学完了之后让它按照它学到的这种风格去写作,就这么简单,那么有好事者就把这个四娘的大作集合,像换成《左手》《倒影》《右手年华》、《小时代》,所有这些小说都丢给神经网络去学,神经网络学完了之后就写出了右边的这样的文字。大家如果看过这个四娘的作品的话,大家可能感觉到这个风格还是蛮像的,因为虽然我没有看过,但我知道他是一个小资的这种感觉,我最喜欢的就是上面这个第一句,叫做每个人闭上眼睛的时候才能真正感受光明,真正面对光明,就还蛮有味道,蛮有味道,还有下面,他们再吱呀作响的船舷上静静的看着世界。如果大家看过这个原作的话,应该会发现,这并不是原作里面的任何一句话,但是,他学会了原作的一些风格之后,竟然写出了这样的话,同时大家要知道,虽然成AI能够写出这样的话,感觉我们也不错,但是,本质上AI并没有理解里面任何的内容。AI在写这个时候,基本的原理很简单,我给大家讲一下,他学习的时候,就是比如说,这是在学习的内容,他就只是统计跟着美这个字后面个的概率是多大,大家能理解,所以,比如说他看到了美这个字之后,他在整个的小说里面找,发现美后面可以接个,可以接人,那么,他就统计出来一个概率,有了概率之后,就学习学习,最后把概率都学到了,当然他的这个还会稍微复杂一点,那简单来讲,就是当他学完了之后,你再给他起个头,说美你往下写。然后,程序就看那美这个字,后面接谁,去查,应该接个,接了个,然后个有了之后,又查个后面接谁,人,是这么写下来的,但是,他实际的工作方式会复杂一点,因为大家可以看到这叫RNN,这里面给大家这个简单科普一下,NN大家都知道是什么东西吗?神经网络,大家记住这个,基本上所有的什么这个nn那个nn就懂了70%了,那差别就在前面。这个R叫做循环,循环的意思很简单,我刚才不是说看完美之后去预测个,但是预测人的时候并不是根据各来预测人的,而是说它是根据说美后面跟着个这个字,之后跟着人这个字的概率是多少,大家理解了吧,就是每一个字出现,不只是跟它前面的这个字有关,和它前面的很多字都有关,这是符合我们写作的基本的逻辑的,但是神经网络它只是做到这个而已,它不知道任何其他的东西,它就在统计这些概率,所以,这个就叫做RNN,循环神经网络,那么,大家再看一下这个,有人知道这个风格是什么东西吗?莎士比亚,很多人很有文化,我反正不知道,但是人家说是莎士比亚,我就信了。大家可以看得出来,这个莎士比亚的作品是左边是机器写的还是右边机器写的吗?


对,基本上都看不出来的,难以分辨,因为都是机器写的,但是如果你仔细看的话,你会发现无论是排版,人名的变化,还是些里面的基本语意的语法和莎士比亚的原著你也分不太出来有没有什么样的问题,所以,这也是通过刚才的这个RNN来做的,这个技术原来是由斯坦福的一个博士他们做的,拿出来大家都觉得很好玩。那第二个例子,刚才看到的是能写小说的这个AI,那么如果给它一张图,它能不能也描述出来这个图里面的内容,那么当你给一个神经网络学习了足够多的图片的时候,你会发现给它一张左边的图,它就会告诉你说是一只黑白猫站在了浴室的洗手池上,你给它右边的图,它就会告诉你说有一个年轻人在玩滑板,为什么能做到这个呢?是因为它首先能够识别出来图片里的物体,然后再根据这些物体去给你整理出来一个描述,再往后看有一些挑战的图片,左边这个它会说一架飞机停在机场。那么右边这个图是一群人站在沙滩上,基本上你也不能说他是错的,里面的东西大概也是这么个意思,但是也看得出来,它其实还是一个很初级的智能,那么另外一个例子就是它能够根据学习到的所有的图片,你再给一张黑白照片的时候能给你上色,这个效果应该是非常不错的一个效果,那么如果大家看到更多的例子的时候你会发现,我们很难想象这是由人工智能来把黑白图片做的一个还原,所以有很多好事的人用这种技术去给这个黑白片上色,然后就变成彩色电影了。当然说真的喜欢电影的人可能不喜欢这样,但是确实会效果很不错。还有一个例子打游戏,打游戏其实是很有趣的,就是能不能让人工智能来打游戏是很多人,因为人最厉害的一个点就是从小玩游戏,这个很有趣,那么我们来看一看简单的一个,这种简单的游戏这有一个赛车,赛车其实大家这种早期的80年代游戏很简单,左右加速刹车,很简单的操作,那么把这个游戏的视频图片就像刚才我们说分辨这个里面有什么物体一样,丢到这个神经网络里面来,但神经网络输出的就不是说它是啥,输出的时候我应该是摁左还是摁右,我应该是加油还是减速,通过这样的方法来不停地让神经网络来玩这个游戏。通过大量的玩,最开始的时候不会就是瞎玩,但是每一次玩的好了就奖励,让它把刚才的这个行为加强,玩得不好就惩罚,让它把刚才的这个行为减弱。通过很多次这样的训练之后,这种游戏基本上现在的AI能够玩到完美,就是永远能过关,因为很简单,对它来讲很简单,就算这个道路和这个车应该怎么走,特别简单的操作。


那么第五个例子,人工智能对人的语言学习之后,它能够理解一些关系,理解什么样的关系呢?有人已经眯着眼睛在看了,这个叫做国王减去男人加上女人是啥?国王减去他的性别,然后再加上一个或者叫改变他的性别,他会变成什么呢?这个经过人工智能的统计,它会觉得做了这个性别变化之后国王就变成王后了,就变成他老婆了。同理它在人类的这个语言里面得到的分析,这个相关性是很一致的,比如说男人和女人的差距是这个蓝色的向量的话,它会发现叔叔和阿姨的差距也是这样一个蓝色的向量,一个国王和王后的差距也是一个这样的向量。如果大家记得向量的话,你就知道向量有两个因素,一个是向量的长度,一个是向量的方向,当这两个一样的话,这两个向量就相等,所以其实这个神经网络就是发现了一个通过学习人类的文字之后,它得到了一个结果,就是男人和女人之间的差别,大家看到都是男人和女人之间差别,就是这一段蓝色的向量,所以拿这个向量放到任何一个其他的地方,你能得到把那个东西变换性别之后的对应的是什么?那么好玩的事就是在这,除了男人女人之外,大家先看左边这个,这个是机器学习之后它把所有的国家都放在这儿了,然后它把所有的首都都放在这儿,这是完完全全用人工智能这个神经网络学完了之后,把这个文字做的一个它们那个就是机器所认为的这个知识在哪个位置,那么里面的位置相关就是代表它们的差异。


我们看中国和北京是这个,那么日本和东京也是这个,基本上所有的这个叫做首都的这个关系大家看得到吗?都是这样的一个向量,所以通过这种就问,我们可以问机器一些问题了,你学完了之后你给我讲讲说,如果是北京减去中国。再加上俄国能得到什么?就相当于把中国属性给变成俄国了,就变成俄国首都了,得到的就是莫斯科,这是在机器它在这个数学空间里面能够找得到的结论,那么更有意思,就是说如果是这个sushi怎么总记不起来它叫什么名字,这个对寿司,寿司去掉日本的属性加上美国的属性能得到什么?它是通过其他的语言分析出来的。披萨饼,如果是windows一个操作系统减去微软加上google他也能够得到一个结果。就是最知名的操作系统,如果和windows一样,但是google家产的是谁?安卓,所以这个是机器通过自然语言得到了一些各种各样的这个结论。还有一些更好玩的,他也能够算出来一些加减乘除,那这里面面对是图像,大家看最左边就是一个带着眼镜的男人,减去一个男人的脸,都是图像这里,一个带着眼镜的男人减去一个男人的脸加上一个女人的脸,能够得到什么呀?一堆带着眼镜的女人。如果是一个笑的女人,减去一个没表情的女人加上一个没表情的男人,能得到什么呀?一堆笑的男人,基本上这也是他在学习图像的特点的时候能够得到的一些结论。那么除了这种加减以外,我们还可以把风格就是一些其他的特征来做加减。如果我们大家看这个,左边这个是斯坦福的《钟》,那么下面是梵高的《星月夜》,最近好像梵高有一个电影要上映了,那么右边我们就会看到说神经网络说我来学道星月夜的风格,然后把我们的钟给变成星月夜就画出了这样一幅图,那么这里面我要说一下了,大家看这个很好玩,这其实也是我见到的被玩家玩的最多的。


以前很高的成本,大家到现场去弄完了,写个报告就结了,现在你能收集到几万张这样的图片怎么办?他只能走人工智能的途径,所以这个就是帮他做了一个简单的训练神经网络,这个网络就是能够寻找图片里面的海飞丝,当然也可以寻找别的东西。那么当我说请告诉我这个货架上面有多少瓶海飞丝的时候,神经网络就给你把这个海飞丝圈出来,说好那我告诉你有这么多瓶海飞丝,这个经过他们实测之后错误率达好像是小于2%,准确度是百分之九十几,非常效果好,因为人肯定是比这个错误率高的,而且成本会更高,以前你需要雇也许一百个小姑娘还很难管,现在大概买几个GPU服务器就跑起来了。


那么最后大家都已经知道了,对吧,这个AlphaGo,那么AlphaGo出来之后有很多人就说强AI时代已经降临了,包括最近的那个AlphaGo Zero大家可能知道,AlphaGo已经是超越了所有的人类,然后AlphaGo Zero是100比0把(AlphaGo给灭了对吧,而且AlphaGo Zero最大的特点我觉得比AlphaGo 是强在哪?就是这个AlphaGo Zero这个零的意思就是说他没有学任何人类的棋谱知识,AlphaGo 这个哥们是看了大量的人类的棋谱才把人类打败了,但是AlphaGo Zero是没有看过人类的棋谱,直接就是从规则学起,自己跟自己玩就把AlphaGo 给打败,所以就意味着人类的知识可能很多还有问题的,学坏。那么即便是它把人类打败了,很多时候说是不是强AI时代就到了,那么很多人都在说,甚至很多不太懂的投资人和创业者说,我们这个项目上了AI我们就能够实现什么样的功能。大家记不记得当年这个大数据很像,当年大数据的时候大家最喜欢说的一句话是只要我把所有的日志都存下来以后就可以知道你是谁,你想干什么、你喜欢什么、你怎么样。最后五年过去了甚至十年过去了,其实它们想说的都没有做到,其实AI是有AI的能力,同时也有它的局限性,那么这里面有一个电影,不知大家看过没有,左边这个是一个亲情篇,是我很少看过的亲情片叫做《我是山姆》,那么这个电影讲述的就是一个成年人,这个哥们他是一个智障,他只有六岁小孩的智商,所以在美国应该是安排的福利。他每天上班工作就是去咖啡厅把所有咖啡厅里面桌子上面的不整齐的瓶瓶罐罐给摆齐了,如果说缺糖或者缺餐巾纸把糖补上把餐巾纸补上,他就做这么一件工作,但是他可以做得很好。那右边是什么?右边大家可以看一看和我们刚才过来的地方很像机械手,这个是Google可能不知坐落在哪里的一个秘密实验室,这些机械手它负责每天就在这个盒子里面分拣这些小东西,希望能够把这些东西分解得很好用这样的话可以替代我们人类做很多事,但是实际上一直到现在这种事情机器人还做得很差。前两天在微博上有一个叫做日本就是最近两天的日本机器人大会上面展示了一个很牛的机器人,它能干什么?它能把毛巾对折,因为也很难,因为毛巾很软,而且很多事情很难,那么在今天这个时候,仍然这些任务对于我们一个六岁的小朋友能做得很简单的事情,对人工智能很多时候还是很难的,所以就是人工智能有它强大的地方,但是局限性很大,这个我们要意识得到,这里面有一张图是缺失了的,那么这里面人工智能的时代又到来,我现在喜欢做的一个类比,大家如果用电脑用得很早的话可以想一想,我最早用电脑的时候1993年,那个时候的第一台电脑的配置,大家后来想想自己最早用的一台电脑的配置是什么。我轮胎配置是一台386,主频是40兆赫兹,大家现在都是几G赫兹,现在都是2G赫兹或者多少,内存是4兆,大家现在的电脑都是多少,反正我家现在的电脑前一阵是16个G,后来我升到32个G,我就加的比较多,但大家基本上现在都是得是8个G左右了,我当时的电脑内存是4兆,这就意味着如果大家比一下的话应该是有接近1万倍的差距。


当年上网如果当时能上网的话,我当年没有能力上网,那是当时世界上最快的网在家里能上的,大概就是两三KBPS,K如果大家不知道的话,1000K是1兆,然后现在咱们家的带宽基本上是百兆入户,大部分都百兆入户,所以网络基本上也是一个一万倍的提升。包括其它的像硬盘都是一样,那么从过去还不到20年的时间里面,我们想想这个整个计算机的能力,各个维度从存储到性能都了一个一万倍的提升,那么我们现在在类比一下今天我们大家看到的人工智能已经看到有很多了,无论是从图像处理,语义识别,像我们所的语音转文字,还是说像我们在其它的机器人里面像波士顿动力的这种能够后空翻的机器人,这是今天我们看到的AI的能力,此时此刻,2017年,那么我们假想一下,如果再过20年,再过20年如果这些人工智能的这些能力也有1万倍的提升,他们会达到一个什么样。那么这个就是我现在对人工智能非常非常兴奋的一个原因,因为我相信它对未来的生产力的提升一定会远远超过过去20年里面我们见到最厉害的互联网对人类社会生产力的提升。那么那个时代在20年以后,如果人工智能有很大的这种能力改变世界的话,那么在今天此时此刻我们能不能抓到这个机会,就是看我们每一个人每一个创业项目选择方向的时候,能不能抓到一个自己属于自己的点。那么举例来说在2000年的时候的QQ的网站,大家这里面没有那个截图,如果有的话大家会发现那是一个非常非常烂的一个很简易的网站,如果大家去看1998年的时候的google的网站的话,你会发现那个时候google才只所引了2000万张网页,2000万个网页是非常非常小的一个数字,那么但是就是因为它在整个互联网发展的过程中,抓住了这个点,到今天成为了它们这样的一个巨头。那么对于我们来讲,我相信如果在今天大家每一个人都能够在自己的领域,通过了解人工智能找到真正的人工智能里面能够解决自己公司业务里面某一个,哪怕是某一个维度的点,那么对于未来都会为大家的核心竞争力产生一个质的变化。好吧!这就是我想跟大家分享的,谢谢!


尹立志:

好的,听完李卓桓老师的分享,相信很多朋友应该会有这么一种感受,就是收获良多,因为在圈内很难得有人能够一个人工智能的技术,能够对一个技术的小白,都讲得这么清楚细致,并且最重要的人是这些技术能够帮助你去更好地理解人工智能,甚至去做一些人工智能的决策和判断。那李卓桓老师,同时也是我本人在人工智能方面的启蒙老师,如果各位听众朋友,听完节目想认识李卓桓老师的话,也可以加我的微信15110091272备注一下,想认识李卓桓老师,那我也可以把李卓桓老师介绍给大家认识,好的,学点新知识,交点新朋友,就在立志朋友圈,我们这期节目就到此结束,我们下期节目再见。


以上内容来自专辑
用户评论

    还没有评论,快来发表第一个评论!