ChatGPT在做什么第12章超越基本训练

00:00

01:53

ChatGPT在做什么第12章超越基本训练Beyond Basic Training
训练ChatGPT的大部分工作都花在了“展示”大量来自网络、书籍等现有文本上。但事实证明，还有另一个显然相当重要的部分。一旦它完成了对显示的原始文本的“原始训练”，ChatGPT内部的神经网络就准备好开始生成自己的文本，继续从提示等。但是，尽管这样做的结果通常看起来合理，但他们往往——尤其是对于较长的文本——以一种非常不像人类的方式“走神”。这不是人们可以轻易发现的，比如说，通过对文本进行传统的统计。但这是真正阅读文本的人很容易注意到的。在构建ChatGPT的过程中，一个关键的想法是在“被动地阅读”像网络这样的东西之后，有另一个步骤:让真正的人类积极地与ChatGPT互动，看看它会产生什么，并在实际上给它反馈“如何成为一个好的聊天机器人”。但是神经网络如何利用这些反馈呢?第一步是让人类对神经网络的结果进行评估。但随后又建立了另一个神经网络模型，试图预测这些评级。但现在，这个预测模型可以在原始网络上运行——本质上就像一个损失函数，实际上允许该网络根据所给出的人类反馈进行“调整”。实践中的结果似乎对系统能否成功产生“类人”输出有很大影响。一般来说，有趣的是，“最初训练”的网络似乎只需要一点点“戳”，就能有效地朝着特定的方向前进。有人可能会认为，要让网络表现得像“学到了新东西”一样，就必须运行一个训练算法，调整权重等等。但事实并非如此。相反，一次基本上告诉ChatGPT一些内容(作为您给出的提示的一部分)似乎就足够了，然后它可以在生成文本时成功地利用您告诉它的内容。再一次，我认为，这一工作的事实是理解ChatGPT“真正在做什么”以及它是如何与人类语言和思维结构联系在一起的重要线索。它确实有一些类似人类的地方:至少一旦它接受了所有的预训练，你可以只告诉它一次，它就可以“记住”——至少“长到”可以用它生成一段文本。那么这样的案子到底发生了什么?它可能是“你可能说的一切都已经在那里的某个地方了”——你只是把它引向了正确的地方。但这似乎并不可信。相反，更有可能的情况是，是的，元素已经在里面了，但是细节是由“这些元素之间的轨迹”之类的东西定义的，这就是你在告诉它一些东西时引入的东西。事实上，就像对人类一样，如果你告诉它一些奇怪的、意想不到的、完全不符合它所知道的框架的事情，它似乎无法成功地“整合”它。只有当它基本上以一种相当简单的方式运行在它已经拥有的框架之上时，它才能“集成”它。同样值得再次指出的是，神经网络可以“拾取”的东西不可避免地存在“算法限制”。告诉它一些“肤浅的”规则，比如“这个到那个”，等等，神经网络很可能能够很好地表示和复制这些规则——实际上，它从语言中“已经知道”的东西会给它一个立即遵循的模式。但是尝试为实际的“深度”计算提供规则，这涉及许多潜在的计算不可约步骤，它将不起作用。(请记住，在每一步中，它总是在其网络中“向前馈送数据”，除非通过生成新的令牌，否则永远不会循环。)当然，网络可以学习特定的“不可约”计算的答案。但是一旦有了组合的可能性，这种“表查找风格”的方法就行不通了。所以，是的，就像人类一样，是时候让神经网络“伸出手来”并使用实际的计算工具了。(是的，Wolfram|Alpha和Wolfram Language是唯一适合的，因为它们被构建为“谈论世界上的事情”，就像语言模型神经网络一样。)

以上内容来自专辑

主播信息

港中大硕士吴鹏

香港中文大学硕士，中国政法大学学士；曾师从罗翔。10公里47分49秒，半马1小时49分钟，均达29岁以下组国家二级；【逐章】解读书籍，全网少有。有时解读英文新书、期刊等。声音温和，是枚暖男。

4665

加关注

还没有评论，快来发表第一个评论！

ChatGPT在做什么第12章超越基本训练

ChatGPT在做什么…以及它为什么好使逐章解读

港中大硕士吴鹏

[11]--呼吸控制训练—胸腹联合式呼吸基本状态训练

2岁：基本看护（三）如厕训练

226《自卑与超越》对爱的基本认识从小就形成了

16.2.3　智能链路规划训练基本原理

67基本面开篇，什么是基本面？

ChatGPT在做什么 第12章超越基本训练

ChatGPT在做什么…以及它为什么好使 逐章解读

港中大硕士吴鹏

[11]--呼吸控制训练—胸腹联合式呼吸基本状态训练

2岁：基本看护（三）如厕训练

226《自卑与超越》对爱的基本认识从小就形成了

16.2.3 智能链路规划训练基本原理

67基本面开篇，什么是基本面？

ChatGPT在做什么第12章超越基本训练

ChatGPT在做什么…以及它为什么好使逐章解读

16.2.3　智能链路规划训练基本原理