《ChatGPT:读懂人工智能新纪元》

《ChatGPT:读懂人工智能新纪元》

芦苇笛音
200343

ChatGPT爆火,标志着人工智能从量变到质变的飞跃,一场新的人工智能革命已经到来。本书共6章,介绍了ChatGPT的诞生和发展,以及ChatGPT背后的技术路线;分析了ChatGPT及大模型训练对全球商业格局的冲击与影响,涉及OpenAI、微软、谷歌、百度、腾讯、阿里巴巴等广受关注的互联网科技公司;选取了具有代表性的行业,解读ChatGPT狂潮引发的产业颠覆与模式创新。同时,本书对未来的强人工智能与人类社会的关系进行了深度研讨。

GPT究竟是否是强人工智能诞生的前兆?在回答这个问题之前,需要先理清到底什么是GPT。ChatGPT又是什么?他们的工作原理是什么样的?对大语言模型的底层运作机理进行探究,能够帮助我们合理判断这些模型未来将走向何方、延伸出什么样的能力以及如何改变我们的生活。
GPT全称即Generative Pre-trained Transformer,该名称很好地展现了这个模型与其他语言模型的差异:
Generative(生成式的),指模型的输出结果均为模型自发生成的,而非通过其他形式获得。实际上这个词很好地驳斥了大众对于GPT的一大误解“GPT不过是一个极致高效的搜索引擎”,因为GPT的工作机制决定了其根本不需要从一个数据库中检索信息再反馈,它自身就是一个运作机制极其复杂的函数,获得输入信息后就能够自发生成一个输出信息。
Pre-Trained(预训练的),大样本量的模型训练过程可简单认为由预训练、微调两个主要部分组成:预训练指的是使用海量数据预先训练一个模型,而微调指的是将预训练过的模型作用于另一个小规模数据集并使参数适应小数据集。因为可用于微调的数据集需要有比较严格的人工规范过程(对大语言模型来说,这种规范指的是使用语法清晰、语义通顺、不含污言秽语的语料来训练),而特别规范的数据集规模一般不够大(编辑文字、图片的成本太高),如果直接用来训练会造成过度拟合,因此必须先用粗放的数据预训练再进行微调。GPT模型是预训练的,这就意味着开发人员能够通过调整训练方式、训练数据来调整模型的参数,让它在一定程度上向着开发人员希望的方向去演进,例如能够调整其语言表达的情绪,语言的简练程度等,但模型底层的映射逻辑并不能再做改变。
在Transformer问世后,迅速取代循环神经网络RNN的系列变种,成为主流的模型架构基础。需要注意的是,目前中文互联网大量科普类视频所提到的“GPT将问题和已生成的回答逐字代入模型来生成下一个字”这种说法实际是错误的,这正是被Transformer给击破了的RNN模型结构,Transformer的成功之处恰恰在于其摒弃了这种成语接龙式的递归方法,找到了一个大文本向另一个大文本的映射方法。
GPT模型实际上是研发人员基于大量文本的投喂,培养出的一个大语言模型。它并没有情感、智慧、欲望,只是单纯从海量文本当中摸索到了一种逻辑庞杂到人类无法理解的映射关系。这种映射关系可以将一段给定的文字高效地转化成语法严密、语义基本合理的另一段文字,它能够处理包括写作、翻译、交谈等各种语言处理任务,ChatGPT就是基于GPT模型开发的一类聊天应用。
作者陈根是在人民日报、澎湃新闻、第一财经、英国金融时报、日本每日经济新闻、彭博社等国内外多家传媒有过刊发的专栏作家,曾出版科技话题相关的专著100余本,涉及可穿戴设备、互联网+、工业设计、虚拟现实等诸多领域。其作品面向受众大多是对前沿科技话题感兴趣、但又没有相关教育或从业背景的大众,因此书本内容一般对技术原理、技术瓶颈等内容仅作简单科普,并用上较大篇幅讨论技术发展将给人类社会带来的变革。虽然本书发布之时GPT模型还停留在3.5版本,但作者基于GPT彼时展现出的能力所作的各种讨论、剖析、预判,也能够给被4.0版本所震撼的我们带来一些指引。
作者开宗明义地介绍了ChatGPT的火爆程度并分析了其为何火爆。陈根认为,与生活中常见的人脸识别设备或是游戏NPC等弱人工智能不同,ChatGPT具备了与人类相仿的逻辑、思考与沟通的能力,让人类看到了强人工智能诞生的曙光,而强人工智能一旦问世,人类就将步入科幻电影中人与AI共存的世界。随后作者为读者梳理了GPT模型的演进过程,这一过程实际上也是对模型开发公司OpenAI历史沿革的一次复盘。另外作者也谈到了很多中国读者关心的一个问题——中国自己的GPT模型在什么地方?对此,他归纳总结了国内多家头部互联网公司的大语言模型研发进展,为读者在人工智能模型的地图上标注了中国企业的身位。最后,作者对GPT逐代演进下去可能给人类社会带来的变革做了自己的预测,并提示人们做好对AI带来冲击的准备工作。


用户评论

    还没有评论,快来发表第一个评论!