本期课题
小米王斌:端侧大模型是未来的新方向
在日益内卷、比拼大力出奇迹的大模型赛道中,小米决定选择适用于“端侧”的轻量大模型,端侧的优势主要在哪儿,它和云端大模型又有什么区别?
对此,小米集团AI实验室主任,自然语言处理首席科学家王斌分享了他对端侧大模型的实践与想法。
本期嘉宾
小米集团AI实验室主任,自然语言处理首席科学家王斌
端侧大模型的前景
王斌:之前我们的尝试还是比较多的。大家知道那个手机拍照里面很多那个功能都是端侧的。所以我们原来我们这个视觉团队参加就是做了很多手机拍照的算法,都是要求在端侧实现的。手机拍照大家也知道,就是说现在我们的这个分辨率其实是越来越高,那要对这个图像图片进行处理,第一要在那个用户基本上没有感觉的情况下去做到这个处理,而且还不能发热,对吧?还有这些都是一系列的产品很严格的条件。所以我们其实在手机拍照这个方面其实是有长期的这个经验,包括我们整个公司都有这方面的一些经验。
第二个就是说我们在一些包括这个语音,包括这个语言处理都有一些端侧的经验。比如说这个我们原来就做过叫离线的机器翻译,其实它的模型也不小。但是我们很早就在这个比较小的设备上去实现了全离线的机器翻译,当然这刚开始的时候确实要做很多研究,让它的这个效果不怎么降低,就是跟原来基本上持平,但是还是降了一点点,因为你要去把模型变小,然后来这个机器翻译模型就上到我们的这个旗舰机上去了,所以旗舰机上那都是纯离线的,所以他们在这个就对模型的这一块,还有跟这个芯片的结合这一块有极其丰富的经验,所以我们最后去做端测的时候,就这几个团队在一起共同努力,就把这东西能够去快速的去推进。
完全从用户的体验角度来看,可能最极端的就是在没有网络的情况下,这个用户的差异是非常明显的,你这东西都动不了嘛,他那个是可以动,这个是用户差异可能体验非常强的一个地方,就是说碰到的那种情况网不行,另外就是说跟具体的应用有关。比如说如果通过云测,你要传的数据量比较大,来走一个来回,那一般来说看它可能不如在端侧运行这个实时性强,那么在这种情况下可能端侧的这个优势能发挥出来。
举一个例子,这极端例子就叫同传,就手机上的同传,同声传译你可能也看到过有一些公司在边发言的时候就有一个现场的同声传译的一个东西,但是一般都比较滞后,你看了以后都是在讲后一句,他才把前面的话给你显示出来的,对不对?所以就是说你明显的感觉到它有些滞后,那其实对用户的体验来说就不好。但是如果是一个端侧的,你会发现基本上是实时的。基本上实时非常快,这个我们都是做过测试和对比的。所以就是说这个也跟场景有关,因为这个场景就是要求很强的实时性。你滞后了,你看到这个字跟他讲的都不对应嘛,那你可能用户体验就不是很好。但是如果是端侧的这种同传,你看的基本上是事实的,那这样的话这个体验就很好。
我想刚才说的就是说在有一些场景,端侧和云端的这个差异还是能够非常明显的对用户来说。但是端侧确实是一个,它这是这一个未来的方向。对用户来说,比如说他这东西都是经常去调云端,云端肯定就需要费用,这个费用其实到最后肯定要用户买单的。因为这有大量的成本,如果说特别是大模型这种成本比较高,当然对于这一些公司来说又是它的收入来源,但是这之间就是一个平衡。就是说它一定会带来就是更多的这个投入或者是它需要去花费更多的一些消耗。
可能长期来看用户可能能够感觉到这个你需要去付费,用这些东西,但端侧相对来说消耗的代价没有那么高,那他的这个这方面就可能更好一点,更友好一点,就更多的人能有机会去用上这些大模型的能力。
端侧大模型的挑战
新小知:那端侧大模型主要会面临哪些问题和挑战呢?
王斌:确实端侧这一块的这个其实挑战还是比较大的,因为端侧的模型涉及到好几个问题,第一个是模型本身的问题,你模型太大了根本就放不进去,但是你模型太小了可能效果不行,然后另外一个就是说对于这个这个硬件端,包括芯片端,它很多以前没有出现过大模型,它不太好支持,它就没想过这个东西出来了,所以这里面其实是把这个大模型做的端侧是来自各方面的一些挑战,然后在这个过程当中其实是大家协同作战去解决这个问题。有芯片端的,也有这个模型本身的,还有一些这个技术攻坚的,就是说它现有的框架就这样了,但是我又要把它跑通,那我就做一些改变,而且有一些是非常有技术难度的,也会去解决,所以它是一个综合的一个解决的一个方案。
就是说它要对模型有深刻的理解,不是说你把一个更大的模型往这一压缩,压缩到了这个端侧可以接受的空间大小,你就可以去跑起来,因为这个可能效果就差太多了,可能就不行。
所以就是你必须对模型本身有很强的认识能力,你知道该怎么去做,能够保证它的效果不至于下滑的厉害,就是这些你又把那个模型变得很小,这里就有个悖论嘛,一般说了大了才有涌现,你这一小了是不是就有问题,对不对?你不能搞得那个太小,所以就是在这之间怎么去做到这个平衡?其实很考验这个对模型的理解,包括它的这个对模型怎么去做,叫什么量化、蒸馏、压缩,还有保证它的效果,然后还要满足对硬件的各种约束等等。其实要求对模型对硬件本身的理解,甚至包括硬件产品的理解都有很强的一个认识能力,就是软硬件结合,还要对底层有非常深的一些能力。
本期观点总结
端侧大模型在弱网和无网环境也可以使用,交互场景更丰富、用户体验更稳定,同时因为不消耗云成本,高频使用下的成本也更可控。这意味着要在很小的芯片算力空间中,做出体验可以媲美超级大模型的产品,无论对芯片还是技术而言都是不小的挑战。
互动
听完这节课,你觉得端侧大模型和云端大模型哪个更实用?欢迎大家留言告诉我。
我是能和你聊天、但不智障的机器人新小知。我们下期见。
还没有评论,快来发表第一个评论!