近日,基于“第三代生成性预训练转换”概率性语言模型的网络对话平台ChatGPT出圈,获得了极大的关注和讨论。关于它的原理、功能和应用的介绍已经很多了。对之我不再赘述,只讨论一下关于它的一个争议:ChatGPT仅仅是一个网络内容的搬运工甚至剽窃者吗?或者说它其实也能创作?
持前一观点者如美国著名语言学家乔姆斯基,说它是高科技剽窃;持后一观点者则大有人在,高呼ChatGPT不仅将取代大量如“机械般”的工作岗位,还将夺去某些我们常规认为的创作性人群的饭碗。
我的观点是,概率性语言实践和拼凑式创新自古以来就是人类的文化生产方式,无论ChatGPT被视为“极具重复性”还是“极具创造性甚至颠覆性”,人类都不应对之过分消极或兴奋。因为我们现在看到的ChatGPT不过是人类的“镜中自我”,差别仅仅在于它比人类更加“人类”而已。我认为,ChatGPT会不断学习,变得更具创造性,进而对人类施加更多的创新压力,在人类未来的发展中,我们将能以ChatGPT为自己的训练伴侣,不断掀起超越AIGC的新浪漫主义运动,最终变得越来越具有创造性。
一、ChatGPT的语言模型是对人类概率性语言实践的高效模拟
身处一个不确定的宇宙,人类对确定性有着永恒的追求。17世纪,牛顿物理学诞生。它告诉我们,万事万物都由一个总规律绝对地支配着,就如一个弹子球的撞击必然导致另一个弹子球的运动一样。这让对自己命运一直惴惴不安的人类如释重负。
但到十九世纪末,物理学中爆发了一场“概率革命”——此时出现的热力学,特别是对气体的所谓“布朗运动”的统计研究从根本上证否牛顿物理学的绝对性。后来由威拉德·吉布斯和路德维希·玻尔兹曼等科学家推动的“统计革命”指出,宇宙本身就是模糊的,其基本运行规律是“偶然性”,因此任何对它的物理测量无法做到精确,更何况我们的测量工具也无法做到绝对精确。于是人类科学放弃了对绝对精确和确定的追求和捕捉。
这种放弃也体现在人工智能的发展中。在GTP-3之前,实现AI有两种“追求精确”的思路,即模拟现实和化约现实。模拟现实派认为,AI必须对现实进行精确建模,并通过它对现实做出精确预测,但现实世界丰富多彩,难以精确复制,因此这条道路遥不可期。化约现实派则认为,正因为现实太复杂不可能被精确复制,因此只能对其进行化约,但化约后的现实并非现实本身,这就给AI预测现实带来了困难。GPT-3的思路则放弃了追求精确模拟,承认世界的模糊性,基于人类语言实践的高概率性,结合强大的算力、海量数据以及人机协作训练出来强大算法,最终推出了“概率性语言模型”GTP-3以及它的人机对话应用ChatGPT。
GPT-3从海量文本中分析人类语言实践中的概率,选择最可能的搭配内容作为答案提供给人类提问者。人类语言“最可能的搭配内容”其实就是各种习惯表达,包括词、词语、句子、段落、篇章乃至学科知识等。例如在我们的日常表达中,“我喜欢___的感觉”这句话,填上“川菜”的可能性要远高于“被嘲笑”。在中学英语考试中,我们也总是像ChatGPT一样被训练——根据概率来做一篇又一篇的完形填空。因此,ChatGPT也被很多人批评为“内容的搬运工”,虽然高效但并无创新之处。
这种批评的背后是一种中外都存在的悠久传统:我们都推崇标新立异的语言创新,讨厌面目可憎的陈词滥调。例如,诗圣杜甫说,“诗清立意新”,意思是诗要写得清新,首先得立意新。殊不知,中国古代诗歌中的典型意象和典故如孤月、长夜、秋水、落日、长河、枯藤、昏鸦、小桥、流水等数千年来被历代诗人不断重复使用,也因此促成了中华文明的源远流长。
在西方,反对陈腐语言提倡文学创新,首先要提的就是18世纪中叶的浪漫主义运动。其主要代表是威廉·华兹华斯,他高调反对陈腐语言。有一次,他看到同时代诗人托马斯·格雷的一首挽歌十四行诗,便粗暴划掉其中的“都是陈词滥调”的九行,指出只有剩下的五行还算有点价值。这九行中充斥着诸如“人类长羽毛的朋友”、“微笑的早晨”、“金色的火苗”、“欢快的田野”、“孤寂的痛楚”等概率性语言。事实上,类似于中国旧诗中的用典,在18世纪,西方很多诗人都还认为只有用上这些成语才算是真正的诗歌。但浪漫主义的代表华兹华斯认为,诗歌是艺术家个性化的表达,“诗人越优秀,其诗中的表达就越难以预测”。
西方反对陈词滥调的另一位著名人物是乔治·奥威尔。他在《政治与英语》一文中指出,陈词滥调的写作让人感觉像是作者“将一长串已经被别人安排好的单词粘在一起”。他还在《1984》中批判了英国政府的“新话”——各种语言腐败,其中就包括各种“过时的比喻使用”和“滥用无明确指代的词汇”。
但如果我们去掉价值判断,杜甫、华兹华斯和奥威尔反对的陈词滥调其实就是今天的ChatGPT所用的概率性语言,而它自古就是人类语言实践的重要特征。受制于人类大脑记忆带宽,使用高度概率性的陈词滥调是人类语言的宿命。实际上,即使是我们对陈词滥调的反对言论,也早已经变成了一种被高概率使用的陈词滥调——无非指责它毫无新意,阻碍创新。
美国文学和媒介研究者沃特·翁指出,那些我们今天视为陈词滥调的公式性和模块化表达其实自古以来就是人类口语和文字实践的主要特点。翁对口语文化和书面文化的研究充满洞见,为我们理解语言与技术之间的关系能提供重要启发。
翁在《修辞、浪漫故事和技术》一书中指出,在5000年前文字出现以前, “在口头文化中,知识一旦获得就必须被不断重复,否则就会丢失。此时使用固定的和模式化的语言来表达和思考对有效地保存和管理经验和智慧至关重要。”例如,中西方的少数民族史诗里都有这样的惯语:说到士兵总是“勇敢的士兵”,说到橡树总是“坚固的橡树”等;民俗中还通过如“一三五七八十腊,三十一天永不差;四六九冬是小月,唯有二月二十八”这样的押韵口诀来记忆大月和小月的天数。
19世纪30年代,一位30岁的名叫弥尔曼·佩里的年轻哈佛教授在《哈佛古典语言学研究》杂志上发表论文指出,口语时代的代表作品《荷马史诗》有着数万行文字,但它并非由一个叫“荷马”的个人创作的,而是由几代无名的希腊吟游诗人将大量预制零件般的固定表达拼装在一起最终沉淀而成的。因此吟游诗人“荷马”更像流水线上组装工人而不是具有创新的艺术家。2023年2月,Google宣布将推出自己的类ChatGPT应用,名为“吟游诗人”,正是对该类AI智能如“荷马”一样的拼凑式内容生产方式的揭示。
翁和佩里的研究都告诉我们,人类语言的规律性和重复性比特异性和原创性比我们想象的要高得多。后来,文字的出现以及15世纪印刷术的发明大大降低了人类口语概率性表达的影响力,因为文字作为一种“外在记忆”比概率性表达具有更强的存储能力和传播能力。但概率性语言并没有完全消失,而是在书面语言中被固定了下来,比如我们中文广泛使用的成语和习惯表达,以及英文中各种固定表达,如“久经考验的”“突然的变化”,以及固定表达如“很久很久以前”或“那是一个黑暗无光暴雨肆掠的夜晚……”
艺术创作中的情况也类似。韩裔德籍哲学家韩炳哲指出,与我们中国人一直的看法不同,从2500年前的秦兵马俑的“模块化拼装型”生产,到清康熙年间的“元素组合型”国画技法手册《芥子园画谱》,中国思想和文化中的骨子里具有一种山寨拼装精神。韩炳哲本人也很具有“ChatGPT生成内容”的多元拼凑特征——他是第一个能够在德国或欧洲哲学、文化内部不把自己当外人的远东人;他以日本的俳句为书写形式,以朝鲜人的言语为示例,用中国哲学来教训西方,来诊断当代世界和当代社会。
即使是在新近的“中国人自己的”充满想象力的科幻电影《流浪地球2》中,“反派”人工智能莫斯与克拉克出版于1968年的《太空漫游2001》笔下的“HAL9000”人工智能如出一辙。刘慈欣也明确表示“我的所有作品都是对阿瑟·克拉克的拙劣模仿”。由此看来,一些人批评ChatGPT是人类语料库的搬运工或高科技剽窃者其实并没有说到点子上,因为借鉴或者说对已有内容基于概率的重复使用自古以来就是人类文化生产的方式之一。
二、ChatGPT的“拼凑”自古是人类文化创造的方式之一
但是,如果文学作品的生产都是仅仅基于人类的概率性语言的话,那么我们怎么还会惊叹于经典文学作品的令人叫绝的布局谋篇、情节设计、人物刻画和回味无穷的文字表达呢?它们明明充满了创造性!类似的,如果ChatGPT仅仅是基于人类已有语料库的概率性借鉴和拼凑,那么为什么有时候我们会觉得它给出的回答也还幽默、有些情趣、能解人意、颇有创意呢?ChatGPT能创作吗?
这本质上是一个图灵问题——机器能像人一样思考吗?事实上,今天的人工智能写作早已经达到了能让人类用户无法将其与人类作品相区分的水平,也就是说早就通过了“图灵测试”。既然如此,按照图灵的观点,此时我们再争论“机器是否能像人一样地思考”意义不大。
另一方面,回答这个问题还要看我们如何定义创作,以及如何判断一个作品是否具有创作性。“本质上”而言,计算机和算法是被人类创造的,它们都是“人类的创造物”而不是“创造者”,都缺乏体现创造力的关键元素:自主性、意向性、意识、价值观、情感以及超越“已知”建立“未知”的能力。据此,我们不能说ChatGPT说具有创造性。
但从其实际表现上看,GPT-3确实体现出了一定的创造能力。例如,它作为通用语言模型的表现已经超过了专门用语言模型,这表明它对各种任务具有高度适应性,这是创造性的体现之一。GPT-3除了能完成传统的模式化写作外,还能创造小说、诗歌和戏剧,甚至进行计算机代码写作。GPT-3还能编造出此前并不存在的表达。例如有英文用户告诉GPT-3 “to screeg something”的意思是 ‘to swing a sword at it’,并要求它用这个词造句,GPT-3能给出一个很不错的答案:“我们相互剑拔弩张了几分钟,然后就出去吃冰淇淋了”。
但是,我们要问的一个更根本的问题是:创造有多种方法,难道“拼凑”不是其中的一种?正如一位网友的评论:“人类又何尝不是在随机元素构成的巨大空间里找到对人类有意义的组合,做出了些东西,叫作品、叫设计?”
笔者向ChatGPT提问:“拼凑是否可以被视为是一种创作的手段?”它做了肯定的回答:
“是的,拼凑可以被视为是一种创作的手段。拼凑是一种艺术形式,它涉及将不同的材料和物品,如纸张、照片和布料,组合在一起,以创造一个新的统一整体。这一过程允许您尝试不同的质地、颜色和形状,并探索新的思想和主题。拼凑提供了一种低风险的方式来尝试和使用不同的材料,并尝试新的想法。它可以帮助您拓展想象力和发展视觉词汇。通过以新方式使用材料并以意想不到的方式将它们组合在一起,您可以创造独特且原创的作品,反映您的个人愿景和风格。总的来说,拼凑是一种有趣和易于接触的方法,可以让您进入您的创造性思维并探索新的想法和主题。无论您是一位经验丰富的艺术家还是刚开始的艺术家,拼凑都是释放您的想象力和让您的创造力流畅的绝佳方法。”
如果ChatGPT自己说“拼凑是创作”有利益冲突,证据效力不充分。那么作为另一个证据,在人类文化中,“拼凑”确实也结出了不少创新性的硕果。沃特·本雅明喜欢使用的“意象蒙太奇手法”——用超现实主义的拼贴方法和电影蒙太奇手法,甚至完全用引文来构成一部著作;钱钟书的《管锥篇》是一本短篇随感集,大多由中西文学、历史和哲学中相似或相对的观点的并列和钱先生的简单评述组成,但该书却被视为中西比较文学研究的开创性著作。美国传播学者约翰·彼得斯的媒介哲学著作《奇云:媒介即存有》基于多达12个学科以及大量前人技术思想家的观点,内容庞杂、包罗万象如“百科全书式”,但在媒介研究领域也颇受推崇。
ChatGPT的“拼凑式输出”还让我们想起各种现代主义的文学实验,例如法国文学团体“乌力波”各成员的众多“创新”。比如,作家乔治·佩雷克的法语小说《消失》,在长达300多页的全文里,故意不使用字母“e”; 雅克·茹埃在地铁到站的间隙中即兴创作“地铁诗”;雷蒙·格诺基于所谓“组合文学”概念创作的《百万亿首诗》——他用10首十四行诗的诗句重新组合成100万亿首新的十四行诗。又比如,超现实主义艺术家的小游戏《优美尸骸》—— 游戏参与者在不看之前内容的前提下,接龙加上自己的文字,最后形成一篇文本作为所有玩家共同完成的创作,结果竟然产生了“优美的尸体应喝新酒”这样令人感觉惊骇荒诞也不无新意的句子。还有以“维基百科”为代表的“分布式百科全书编撰”……如果以上“拼凑式”文学实验和分布式百科全书撰写能被视为是具有新意的创作的话,为什么ChatGPT的写作不能被视为是创作呢?
三、ChatGPT与人类的内容共创将挑战现有“原创作者”观念和制度
ChatGPT/GPT-3这类人工智能在“搬运和拼凑”的基础上产生了一种“生成性”,即它能够根据一组规则、模式或数据输入生成原创输出,无论是文本还是艺术作品。人工智能正在从检索者、搬运者和呈现者成为创作者,或者至少创作者的合作者。
ChatGPT与人类用户的内容共创体现在三个环节。首先,ChatGPT输出的内容是对人类语料库的利用和拼凑上。其次,内容输出的过程本身是其与人类用户共同创作的过程。例如,输出内容的质量如何在很大程度上取决于用户提问的能力。问题措辞越具体精确或具有创造性,ChatGPT的回答就越具体精确和具有创造性。一位中国用户就“如何提高ChatGPT的创意小说写作能力”给出建议:“只要你对想要的小说中的心理、角色、场景等都加上尽量精确的描述词,ChatGPT就能给出各种角度完全不同的复杂的描写。”这意味着,能否向ChatGPT提出一个好问题已经成为检验人类用户知识广度和语言表达能力的一种方法,以至于网上出现了大量ChatGPT提问指南。再次,人类用户对ChatGPT输出的内容进行润色后能达到出版水平。现在人类作者对AI输出的粗稿进行润色已经和一个有经验的教师或编辑润色学生或新记者的文章没什么太大差异。比如,很多记者都在与GPT-3合作生产新闻稿。2021年,美国作家K.Allado-McDowell与ChatGPT合作出版了一本书。写作该书时,Allado-McDowell先就各类哲学问题向GPT-3提问,然后对答案进行编辑、排序、整合和润色,最后形成了一本达到出版水平的结构合理,表述清晰的书。自2000年以来,AI语言模型对人类的价值已经从语法和拼写自动检查助手发展到今天写作深度合作伙伴。未来,这种人-机共创的关系将更加普遍和深化。
这意味着,和前文提到的本雅明、钱钟书和彼得斯的学术创作,以及“乌力波”成员的文学创作一样,ChatGPT基于概率性语言的拼凑式写作,以及它与人类用户的共创实践,让我们已经习以为常的“原创作者”观念和制度变得复杂棘手。
但这并不是新问题。韩炳哲在研究中国的“山寨主义”时提到了张大千。张大千被称为“中国的毕加索”。他既是著名画家,也是各种名画的收藏家,藏画多达4000余幅。但他并没有将这些收藏束之高阁,积灰蒙尘,而是不时拿出来摊在画桌上仔细欣赏、琢磨,有时还常常将自己置于古画作者的时代和情境中对它们进行精细的临摹。对于那些名家佚失的但有历史记载存在的名作,他则自行以名家的身份和境遇进行创作。如此,张大千在古、今他、我之间不断穿梭,不断以意想不到的方式复制、删减、添附、修改古代某个著名画家的画风,生产出大量既有继承又有创新、亦真亦假、不真不假的“真赝品”画作出来。“一个中国艺术家的全集也是连续地改变的,全集会缩小和增多。后人的新画会突然冒出在一个前朝大师的全集里。有些原来被归到大师全集里的作品,会突然消失。比如,董源大师的全集,到了明朝突然变了样,与宋朝时大不同。甚至赝品或复制品也会被塞进来。这就发生了暂时的反转。衍生或回顾之作重新定义了原作或源头。这时,反转的赝品就解构了原作”。
由于张大千画技精湛,又得古画之真迹临摹,精神上还与古画作者能穿越神交,他临摹出来的仿作和伪作与原作相比难辨真假,骗过了很多行家。韩炳哲认为,这种艺术上的“特殊实践”,只有在中国这种不追求“断裂的革命”而是致力于“安静的改良”的文化中才可能出现。
张大千造成的问题是,他在欣赏、琢磨、临摹和创造“真赝品”时,是在与古人、古代、古人的作品、他自己、他所处的时代和他自己的作品对话。他的这种“非作者中心主义的创作”让我们最终分不清他的作品的作者到底是谁。类似的,人类作者在与ChatGPT进行的是一种“非人类中心主义的写作”,是人类作者与非人类作者在各个层面的相互纠缠:“我”在与语言建模中的计算语言思维交互,在与由互联网语料库预训练的人工智能交互,在与大量匿名的人类和非人类生产的互联网语料交互。那么“我”和ChatGPT最终生成的内容的作者是谁呢?是我吗?是它吗?也许都是,也许都不是?
四、ChatGPT或能激发人类新的浪漫主义运动
总结而言,ChatGPT作为目前最为强大的人工智能,其基于概率的内容拼凑和与人类的合作共创,似乎都在让我们回到荷马和孔子的“模式化记忆和集体创作”的时代。ChatGPT带来的轰动再次印证了人类历史上技术影响文化时呈现出来的模式性和循环性。这虽然会让我们骤然感觉一惊,但却又在意料之中。和历史的展开一样——新旧技术对文化的影响虽然不会全然一致,但一定会押韵。
翁认为,浪漫主义运动的出现并不是为了反对当时已经存在的各种技术,倒恰恰是因为这些技术的存在才让浪漫主义运动的出现成为可能。是先于浪漫主义运动之前就存在文字、手抄和印刷术,将人类大脑从口语时代的模式化记忆负担中解放出来,让浪漫主义者有脑力去从事更有创造力的活动。同样,我认为,今天ChatGPT可以高效地生成各种模式化的文字,从而让人类能腾出脑力来从事更多的创造性工作。正如在人类伴侣的训练下,ChatGPT会不断学习,变得更具创造性,进而对人类施加更多的创新压力,在人类未来的发展中,我们将能以ChatGPT为自己的训练伴侣,不断掀起超越AIGC的新浪漫主义运动,最终变得越来越具有创造性。
还没有评论,快来发表第一个评论!