本期课题
ChatGPT上半年在全球范围的火热,引发了国内许多公司和企业在技术上的追逐和效仿。
对此,360CEO周鸿祎分享了他对中国发展AI的想法和意见。
本期嘉宾
360公司创始人、CEO周鸿祎
中国AI发展的4个创新点
周鸿祎:我们中国人的工程化能力很强,我们的模仿能力也很强,后来居上也不是不可能。而且现在最关键的难题是大方向和目标,别人已经做出来一个样板了,别人已经给你验证出来了,所以剩下的就是时间问题。但我觉得可能需要在一些机制上要有一些真正的创新,要不然很有可能就是可能画虎不成反类齐全。所以我试图总结几个词。
第一个我觉得肯定是开放。第二个是合作,就是OpenAI和微软之间的这种合作,互相发挥优点。第三个我觉得是open source开源,就像iOS封闭了谷歌就做了个开源的安卓,没有安卓今天手机产业发展不了这么大。如果中国人都把别人开源的东西都拿过来之后都变成闭源的,每个人各搞一套重复发明轮子,我认为肯定是不对的。
还有一个就是Claude saltion众包,也就是说这里边如何能够发挥中国每年1000万大学毕业生的优势,如何发挥这么多在校学生和老师的优势,能够通过一种市场化的机制,就跟大家来挖矿似的。能够做好这种是众包的模式。还有一个是APP store的模式,就大家所说的生态,还有一个我觉得关键词叫SaaS化,应该把这个产品尽可能的都SaaS化,让企业和老百姓进入的门槛极低。如果做一个模型,又变成给大企业说大企业花个两个亿,给他打造一个自己的大脑。我觉得这也是一条路。但是我觉得美国应该会走萨斯华洛为主。因为这个大脑会越训越厉害,越训知识越多。
AI发展的2个要素
新小知:那关于普通人在ChatGPT的使用上,您有什么建议吗?
周鸿祎:对GPT我的建议还是要多用,另外是在用的过程中去仔细体会他这种去测试他人工智能的能力,所以未来要做自己的中国,要做自己的ChatGPT。我觉得大家现在这个中国的算力其实不太缺,第二算法别人已经指出道路了,算法很多也是开源的,然后这里面重要的我觉得是两个东西,一个是语料,一个是能力的训练。这能力的训练是ChatGPT中唯一没有公开的,就是讲得很含糊,就他们找了很多人来书写正确的问题和正确的答案。
其实我觉得这都不是知识类的东西,应该还是一种类似能力的,就是相当于一个问题和一个答案,是一种能力模型的计算。比如说,你可以说给我做一个表格,把数据排进去,这些能力如果不经过训练像是学不会的。所以这一块我觉得可能也是一个重点。
还有一个语料上我提几个观点,第一个,我个人觉得说,对这个一个工业革命级的创新,我是觉得最好国家有这种包容创新的这种知识政策。就这事一定要做,就是中国你可以多家做,最后有一两家或者有几家胜出了,那中国至少在这个就没有缺席,所以我刚才讲开源加众包可能是很重要的这个合作,包括生态可能是很重要的策略,但是当然也会有很多人顾虑他的种种的风险危险,特别像我这个做安全的人,本来是对安全最敏感的,那我认为就是如果不做,可能对我们国家发展是最大的不安全。而那么它这里面一定会有一些就是这样ChatGPT会胡说八道一些问题,会有些数据的错乱,这个我都认为叫瑕不掩瑜,而且这可能也是它智能性的一种体现。
第二个就是说过去百度很骄傲的说这个百度更懂中文,中文语言博大精深是没有问题的,但是客观的讲知识要把它训练好,要用全人类的知识。所以英文网页,整个全世界中文网页大概是其他语言网页,英文网页的1/ 10毛估一下,书籍的数目也可能也不足,所以这里边就是说大家训练一定要有一种开放的思路,就是说不可能只是训练一个结本的GPT出来,只用有限的中文语料。你比如说在讲编程的图书,在讲物理很多科学的图书方面,那么国外的这种就是它虽然是不同语言,它也是人类共有的知识的积累,所以这里面要ChatGPT学习,要用全球的知识来做训练。
还有一个就是ChatGPT里边虽然用了维基百科,用了很多论坛、社区有价值的网页资料,但是我们讲它训练的就不是聊天素材,恰恰是最没有含金量,最没有价值量就是垃圾信息,所以他用了图书很多。他用了一个开源的图书包,那你想人类大概有1亿本图书被人类历史以来出版,这里边国外可能有人在做数字图书馆的工作。就大量图书被数字化,那中国可能要把这方面要补上。如果我们大量的中文图书也很重要,但如果都没有数字化,那这个可能对训练的依赖来是个巨大的损失。
就是哪怕很多甚至很多古籍,我认为本身如果它是知识,它也是非常重要的。
还有一个在我网页资料里边,我觉得中国还面临一个不利的因素是不够开放。因为国外虽然有了APP之后,APP也取代了Web。但是国外的很多APP基本上还是保留了Web版,换句话是用浏览器还是能在网页之间跳来跳去,能够自由使用?那国内信息都被APP私有化了。
就你不注册APP,不关注公众号都不能使用,你用浏览器基本上很难正常使用,只能看到一部分内容,所以这样的话就导致你在国内大家都有各自的资料,但也都有别人需要的资料,如果这些巨头互相都把握着,谁的数据都不全。最后训练出来的大脑肯定是能力是比不上的。所以我觉得国家应该在这方面,像当年工信部要求大家必须不能互相阻拦对方的网址一样。
我觉得要求我们APP都应该有Web版本,只要是这种公开的数据,非隐私的数据都可以被蜘蛛自由抓取,这样的话就大家手里都有数据集,所以我是觉得可能在这方面国家要一些相应的配套的产业政策,来鼓励行业里良性竞争、开放了合作。
本期观点总结
开放、合作、开源、众包和生态,是中国在未来实现技术创新的五个关键词。其中,ChatGPT在语料和能力上的训练上应当引起重视,尤其是语料上,更应该举全人类的智慧和知识进行训练。
互动
你认为中国实现AI技术创新最重要的是什么?欢迎大家留言告诉我。
我是能和你聊天、但不智障的机器人新小知。我们下期见。
还没有评论,快来发表第一个评论!