本期课题
大模型只是巨头和精英之间的游戏吗?普通人如何才能享受技术带来的成果和便利?
对此,智谱AI的CEO张鹏分享了他对AI大模型开发的底层思考。
本期嘉宾
智谱AI的CEO张鹏
首先把成本降下来
张鹏:你做算法研究,你也不可能永远关起门来说,我就研究一个算法,干这个干那个,但最终你实际应用当中根本不用,那这个也没用。所以从这个角度来说,我们投入这个算法,就研究这个算法当时立下的这样的一个目标,就是我们就要让这个预训练模型,甚至是大规模预训练模型这件事情让大家都用得起,能用得上,这是我们想做这件事情的一个目标。
我也给你举一个例子,你看我们,从20年开始做这种对标GPT 3应该说是超大规模的这种预训练模型,当时做这个事情是全世界能做这个事情的极少数,一个手都不到,而且做出来这个事情的成本非常巨大,OpenAI做GPT-3花了1200万美金,然后推理的时候,需要的那个机器的那个成本是100多万人民币,现在这个机器已经涨了将近200万人民币。
那其实大家玩儿不起,不是随便一个人玩儿得起的这个事情,所以当初我们在做这件事情之后,就目标是说,首先第一把成本降下来,大家能够做得出来这个事情,我们不用花那么多钱去做出来这个事情。因为你国内这个资源,你也不像国外做无限制的,你只要有资有钱、有资本,你就能顶得住这个国内不行,不能这么玩。
然后第二呢,就是你做完这个东西之后,它不是一个象牙塔上的东西,能够真正的让大家用起来。所以我们当时就做这个事情,就先把这个模型训练出来迁移,那不做任何加工,不做任何的后期处理,它的推理成本,它的应用成本也是一样的,100万人民币开始,那最后怎么办?那这个大家用不起,就算我们把这个东西很好,开放给大家,大家用不起,那怎么办?我们做了开源,2022年把8月份把这个东西做了开源,但他玩不起,就说,噢,很好,一个模型几百g,我下载到我的电脑上,我怎么办?我没有那些什么所谓的GPU的卡,什么之类的,那我怎么办?我搞不定,那就很好,是很好,但是看起来是空中楼阁,我这我用不了,所以就是应用怎么办?我们就要想办法把它的成本往下压,我们就做了很多的这种后续的很多事情,比如说把模型压缩、量化、加速,让它能够在尽量低的成本下就能跑起来。
原来可能需要一台机器8张GPU卡,高端的GPU卡可能100万人民币以上,经过我们的处理之后,可能你只需要一二十万的硬件就能跑起来,那这个能接受的人就多了,就多很多了。那这样的话其实对于这个技术的应用推广就会有非常大的好处。然后我们开源之后,那这个大家能用起来的人就多了,用起来人多了之后他就给你反馈各种各样的问题。他这一会跟你说,诶,你们这个可能这个问题又打错了,或者说这个比如说我要加我自己的数据进去,这个好像不太好使,怎么办?它会不断地有这种反馈给你,那这个时候又刺激我们说不断的去改进我们的算法,去优化我们的算法。唉,这个正向循环它就很好的形成。
从小模型开始
这个前提就是说你做出来这东西真的大家能用起来,所以后续我们做的那些事情,其实真正的让这个事情走入大众世界,真正的走到一个生态的一个范围。因为那个时候OpenAI已经不再open了,不再open source了,大家只能付费用它的API,用它的这个模型的服务了。
其实还是关于这个问题,就可用性的这个问题,就算我们最后把它压到比如说4块这个GPU就能跑起来这样的程度,大家还是会说,哎呀,这个4块我也买不起啊,这一块都上万块是吧?4块就得4万多块,加上其他的乱七八糟算起来10万块钱,这我这没办法弄啊,尤其好多那个老师做研究,学校里边掏自己的科研经费去支持这个事情,那10万块钱还是挺贵,怎么弄?后来我们就拼命的想办法,后来我们就想,那既然大家是为了尝尝鲜或者做一些实验,或者是做一些科研教学工作,它其实对于所谓千亿这种天花板级的这样的一个效果,它其实并不期待,并不是特别的期待。
那怎么办?好,我们就做了一个比这个小一点的版本,就小小不少,60多亿这样一个版本。那这个版本的好处就是说它足够小,足够方便,大概一年成本只需要1000块就能干起来,就能跑起来。诶,那这个大家就很happy啊,那这个对吧?我不需要那么强大的这个能力,你提供了网上的服务、API什么的,我可以体验你最强的能力是什么。然后我自己local里local了,这个本地上我能跑起来,甚至笔记本上能跑起来这个东西,那我想怎么玩它,怎么玩它,这个就大家就又进一步的压低了这个门槛,所以这个其实是也是不断地在这个正向循环的这个过程当中,不断的大家给我提提这些意见。
就说你看我们这个最具代表性的,1300亿参数的那个模型,那模型是一个中英双语的这样的一个模型,就双语平衡的,效果、精度上可以跟GPT 3去抗打,但这种模型它就刚才说的就使用成本什么,这个还是挺麻烦的,挺高的。那刚才说的小一点的版本,大家开发用或者什么用也都行,那能不能找一个特别具体的,让大家能够觉得就说如立刻能上手就能用起来的这样的一个场景。
所以后来我们又做了一个模型,叫code GYX,那个干嘛的?就是code,就是代码,就是它就一个功能,就帮程序员写代码,这很具体,一说就懂,你就不用这个解释太多,按模型什么什么能力生成什么这那没有。它就一件事情,帮你写代码,就好像有一个人帮你在敲键盘一样,你只需要输入自然语言的要求,或者说输入一半代码,它就给你,帮你把后面的叭叭叭给你写出来。
我觉得这个就是一个非常具体的一个例子,就是我们怎么让这个大模型的这个能力,这个技术能够具体地去赋能某些人,具体地赋能某些场景,产生实际的直接可观的这种价值。所以这个是我们做了这样一件事情,那目前这个事情也影响力非常不错。当然这个世界上做这个事情做得最好的应该还是微软的那个copoilt了,但是他国外的收费10美元一个月,我们在国内给大家甚至面向全球的这种程序员用户提供这种免费的服务,一天也帮全球的这个几十万的用户写超过1000万行代码。我觉得这个就是一个特别具体的一个例子,让这个算法让这个工具能够直接为用户产生具体的价值。
本期观点总结
让所有人都能用得起、用得上大模型,并能直接产生具体的用户价值,是张鹏和团队从事大模型研发的目标和愿景。同时用户的体验与反馈会进一步激发他们对技术的改进和优化,从而形成技术应用的正循环。
互动
实现大模型平民化还需要多久呢?欢迎大家留言告诉我。
我是能和你聊天、但不智障的机器人新小知。我们下期见。
还没有评论,快来发表第一个评论!