趋势预判08 | AI距离无监督学习还有多远?【商汤科技杨帆】

趋势预判08 | AI距离无监督学习还有多远?【商汤科技杨帆】

00:00
07:10

本期课题 

AI距离无监督学习还有多远?

数据、算法、算力是人工智能的三要素。这三者之间的关系是什么?它们又是如何推动人工智能向前发展的?


本期嘉宾

对此,商汤科技联合创始人、大装置事业群总裁杨帆总结了他关于人工智能三要素的思考。


起到关键作用的暗线

AI要想更聪明,你会发现科学家做的第一件事儿就是我去弄更多的数据,人工智能,其实说白了就是你构造一个大脑,让大脑学习理解这些数据


那这就是算法,那如果这个脑子太小,你给它塞数据就塞不下,你给一个小孩,小学一年级的学生,你去跟他讲非常多的知识,他记不住的,他学了新的,他可能就把旧的忘了,或者说他没有足够的底层技术,底层的这些知识忘了之后不够地儿存,之后它实际上它没法学习新知识,因为新知识要以旧知识为基础的。


所以就是当你有更多的数据时候,你发现说我的这个算法我就是要改进,而又要做的更大。然后当你把这个事情做得更大之后,你发现说那你学习这东西就是要耗精气神的,那特别简单,你学得越多,那我就需要更多的资源,就跟人一样,你学得越累,那你就饿嘛。所以它就需要构建更大的算力,所以它我觉得这个它的三位一体更多的其实是从数据作为输入,倒逼算法、算法倒逼算力,最终共同的形成规模化,然后去最后产出一个更好的智能的这样的一个过程


你如果讲说AI基础设施,数据、算法、算力是个三位一体,我刚才讲很多规模的追求,那是不是说意味着你有钱就一定能赢呢?其实不是的。就是整个AI的发展明显是对规模的追求,暗线是对效率的优化,所以这个中间真正决定胜负,或者说真正决定竞争力的其实是那条暗线,就比如说同样的,我们今天讲说我要构建一个大的算力去支撑一个大脑,那大家今天都用业内最好的这个专业的服务器,但是你会发现最好的专业的服务器也远远不能支撑说这个大脑,这个大脑太大了,所以大家要把很多台服务器连在一起去支撑一个大脑。那你会发现比如OpenAI,它可能就能够把上千台甚至几千台机器连在一起。国内至少到半年前我们不说,现在当然又进步了,半年前可能最好的人他可能只能连到四五百台。


那这个中间你是说大家买不起同样多的电脑吗?不是的,而是说当你要技术上把它们连接在一起,就是你这个大脑不是说堆在一起就行了,你要构建很多的回路,你要在技术上把它连在一起,这里面是大量的工程性、细节性的技术问题,这些问题就是你就要有技术能力,你就要一步一步做过去。


那我刚刚说的是算力,其实数据也是一样,你会发现今天大家能够收集的数据量都是非常大的,但实际上你并不是把这些数据都丢给那个电脑去训练,第一那个根本承受不起,那个实际上会比现在业内消耗的资源可能要再上一个数量级的物质。那你到底挑哪些?而且真的你把那些数据全丢进去,你会发现结果可能也不一定好,那你这个过程中就是说你怎么样把这个数据中有价值的东西筛选出来,我们大家都知道,你所有的这些数据里一定是含有大量的低效信息,或者说垃圾信息的,一定是有的,但是这个东西到你到一个具体的,不管是一段话,一段文字、一个视频还是一段语音,你去界定它是零一,是垃圾还是不是垃圾,有那么简单吗?当然不是的,比如你,你有很多小视频,你说机器完全不学习这些,它一定它的智能会缺失某个方面,但是如果他的学习数据比例很大,全都是这个,那他可能就学傻了,那到底多少合适?哪些是合适的,那这个其实就是数据到底怎么挑选,怎么给到这个人工智能的大脑去用的问题


那这个中间其实也是大量的说,我对这件事情到底怎么理解,怎么判断,这其实最后还是一些科学家的一些判断就像算力那件事情,它到最后是工程师的一些大量的智慧的结晶,这个数据的使用选择,很多时候是数据科学家的大量的智慧的结晶。那其实算法也一样,你算法结构怎么样优化,刚才我说大逻辑上都是说我今天要把所有的数据都吃进去,我这个算法一定要造得很大,不大肯定不行。但是同样的数据吃进去,那你造的好和造的不好,你这算法结构可能也能差出个10倍,这也是为什么我们觉得我们会去说我们有机会能够去做基础设施这件事情,就是因为我们觉得在上述几个方面,我们过去都有大量的积累。因为我们不是因为今天这个大模型火了,我们才开始做这件事情,商汤从他诞生第一天起就在做这件事情。


包括过去的就是国内大家还没有人提这个AI技术设施的时候,我们就很早就提出这个概念,我们说包括我们判断说产业就会分化,就会有人提供这个能力。你这个过程中我们不断的在这些环节,在积累这种认知、积累经验,积累很多一些工程的一些成果,那最终把它其实整合呈现出来,就是这件事情我们认为最后很大的程度上就是明线是资源的堆积,就是为了追求规模,对规模的追求,但是规模的追求不仅仅是自然的堆积。


因为你其实暗线是效率的优化,你效率优化做得越好,其实同等规模下你就可以用更少的资源,同等资源下你就可以支撑更大的规模,那这个东西才是真正其实决定说这种它在产业服务端的这个关键的竞争力


比如我举个例子,我们刚开始做的时候,那会我们叫监督学习啊?什么叫监督学习?就是说他所用的所有的数据都是要经过人的标注和加工过的,所以有时候他们开玩笑,人工智能靠人工,就是说你做一个人工智能算法很牛逼,但是你开做之前,你这个大量的数据其实都是这种数据的这种标注师,他实际上经过大量的这种低附加值的劳动去产生大量的标注失去。


那再往后就大家开始说半监督学习,就是机器一定程度上说你这数据标一小部分,剩下的一些东西可能机器能自动生成,甚至再往后现在大家在做的时候无监督学习,甚至最新的一些技术,实际上是说我让这个已经有的一个AI大脑,我给他一些规则,让他自己生成他的训练数据。


所以其实你可以看到,那这个过程中一方面是成本的降低,一方面是这个人的干预的减少,去提升整个过程中的效率。


本期观点总结

算力、算法、数据是人工智能领域的三位一体。其中数据作为输入,倒逼算法、算法倒逼算力,最终形成合力产出一个更好的智能。在这个过程中,看似是对规模和资源的堆积,实际上是对效率的优化。


互动

听完这节课,你认为未来AI会给你带来哪些效率上的提升?欢迎大家留言告诉我。

我是能和你聊天、但不智障的机器人新小知。我们下期见。

以上内容来自专辑
用户评论

    还没有评论,快来发表第一个评论!