本期课题
马占凯:国内短期会受限制,但过几年可能会赶上OpenAI
ChatGPT将马上迎来自己的一周年,这一年来,国内外关于AI的竞争日趋激烈。目前国内AI技术发展到什么阶段了?我们与国外的差距还有多大?
本期嘉宾
对此,搜狗输入法之父马占凯发表了他对国内外AI发展水平的对比和看法。
我10月1的时候去了美国两周,然后也看了看那个硅谷的AI进展嘛,就是美国它现在流行的词儿叫真AI。然后国内提的比较多的是AGI和AIGC。就是有这么一个中美的一个命名差异。中国的这个AIGC就是更加实际化,例如在工作中的应用,尤其是文生图,文生视频和文生代码,那GAI它范围更广一点儿,就是生成式人工智能generated AI,但是我们也流行另一个词儿,就AGI,就是通用人工智能,它其实是更广的一个定义。我觉得反正这几个月里也有朋友或者即便是不搞互联网的,也经常问中国这个算力问题怎么解决?确实是最主要的一个问题。还有像国内的这个人才倒是还是比较充沛的,就是现在你随便看看那个AI论文,基本上这个华人比例特别高,百分之二、三十、三四十是经常有的,那人才肯定就是都能追上。
那个数据方面其实不是问题,因为这个我原来是搞输入法的,虽说中国的这个语言,那个没有英文的多,但是在智能涌现上我觉得其实不会受到影响。然后现在像国内的那个算力也在希望突破封锁,就像华为也在搞GPU,国内的你像讯飞还有百度都在采购华为的这个GPU。国内短期肯定确实受到了很大的一个限制。但是再过几年可能赶上来。
所以国内的目前来说,其实就是跟随就更好了。
我们其实是说新大陆发现了,我们就是看谁这个航海的更好,对于那个OpenAI来说,它前些年是,啊,到底有没有新大陆?我到底这个设定目标是哪里?这个是最难的。所以我们现在这个国内,包括全世界其实都在跟随和复现,例如这个GPT 3.5,后面GPT 4我对国内还是非常乐观的,就是个时间问题。
现在应该就是比较典型的这个追赶阶段,就是准GPT 3.5的这个阶段,可能在一些单向测试里,它应该是可以超过GPT 3.5了。因为像那个ChatGPT它支持67种语言,那它里面的这个中文的比例其实非常低,可能是百分之零点几到百分之一二之间,目前没有特别明确的数据。它的英文应该占个百分之八九十,它背后又支持那么几十种语言,所以它里面的中文语料比例肯定是非常非常低的。那么我们如果是国内的这个中文的这个模型的话,肯定我们的这个中文语料就会非常高,对吧?那我们在中文的很多的能力上肯定是能超越的。
我举个例子,大家可以回去测一下那个GPT 3.5, 就是π和3.2哪个大?这个答案就是3.2大,对吧?但是GPT 3.5就总是会答错,GPT 4几个月前也总是会答错,因为它的中文比例很小,但它的英文版就可以答对,而所有的中文版都可以答对这个问题。
GPT 5目前还没有特别多的准确的信息,因为OpenAI它的保密还非常的严格,好像网上也没有什么太多详细的信息,肯定会有更高更多的数据量,因为目前来看这个像多模态的数据,视频数据还远远没有学习,还有包括一些新的一些架构,好像有人传言说是GPT 5会产生意识了,就是各种说法都有,然后GPT 5肯定就是会有很大的突破。
为什么?因为至少有一条结论是目前来看我们对于数据的应用就是使用训练深度还远远没有到尽头,因为你像那个全球的视频数据可能有几万的PB,几万PB相当于几亿g的这个数据,然后那数据远远没有用到头,然后这个智能能力的解锁还远远没有看到天花板,就目前来看是没有收敛的,所以这个GPT 5肯定会有很大的一些突破,当然他们也会有很大的困难,因为例如当你用一万张卡连起来和几十万张卡连起来的时候,那个难度又会指数级的增加。
OpenAI这个肯定还是会跑得更快,我们也在追它跑得也会更快,但因为不仅仅是这个OpenAI,那在海外的话,像Google还有包括它的这个竞对,anthropic,还有包括Meta,特斯拉的XAI,他们其实都在追赶,目前来看就是即便是这些巨头,他们还是有不小的一个距离的,尤其这次OpenAI开发者大会之后可以看到OpenAI的这个进展还是非常喜人的。
本期观点总结
当前,国内外都在对OpenAI的技术进行跟随和复现。尽管短期内在算力方面受到一定限制,但从人才、数据、语料等方面来说,中国同样具备后来居上的实力。除此之外,随着对数据训练深度的进一步提升,和智能能力的进一步解锁,未来GPT 5也会迎来更大的突破。
互动
听完这节课,你期待GPT 5能带来哪些重大的功能突破?欢迎大家留言告诉我。
我是能和你聊天、但不智障的机器人新小知。我们下期见。
还没有评论,快来发表第一个评论!