学习笔记:ChatGPT的社会化过程
ChatGPT的社会化过程
ChatGPT是由OpenAI设计并训练的语言模型,基于当前非常火的Transformer架构设计而成,GPT的全称是Generative Pre-Training,即生成式预训练语言模型。这一模型在几年前就已经提出,经历了1.0,2.0,3.0,3.5等版本的更迭,ChatGPT最开始发布的版本是基于GPT3.5训练而成的。在早期的2.0版本中也曾饱受批判,部分研究者认为其过于巨大的模型是对计算资源的浪费,然而今年OpenAI用实践证明,他们设计的这一庞然大物将推动AI以及搜索引擎技术迈向一个新的时代。
那么ChatGPT这一神奇的AI模型到底是怎么实现的呢,他到底是经历了怎样的运算过程后给出了我们一个个神奇或是令人苦笑不得的答案呢?
首先澄清两个误区,第一,根据OpenAI的声明,ChatGPT本身是不连接网络的,他的知识截止到2021年末,新的知识或许也已经加入训练了,这个不得而知;第二,ChatGPT本身并没有独立思考的能力,他所有的回答本质上是一种文字接龙过程,当你给他一段对话后,他会根据自己学习到的技巧去推断人类想要他回答的内容,每次输入一些文字后,ChatGPT都会生成一系列的回答,他会在这些回答中选一个人类最大概率想要听到的内容呈现给用户,每种答案的概率在通过神经网络生成时会有一定的变化,所以你问它同一个问题多次,他的回答总是不同的。
李宏毅教授将ChatGPT的“社会化过程”分为四个阶段:第一个阶段,机械式的学习文字接龙,ChatGPT不停的上网冲浪,观察人类的对话并学习文字接龙,这个阶段的ChatGPT学习到的文字接龙是毫无逻辑的,此时你问它:今天天气好吗?它可能会回答你:下午要不要出去玩? 所有这些可能会出现在网络上的上下衔接的对话他都会进行学习,贪婪的尽可能多的吸收知识。当ChatGPT学习到一定量的知识后,人类研究员会逐步引导ChatGPT去回答人类想要的答案,这个过程就像是训练狗狗一样:当你问它今天天气怎么样,它如果回答晴天,则给予“奖励”,如果回答我们要不要出去玩,则给予“惩罚”。经过一段时间的教育后,ChatGPT便进入了第三个阶段,它开始讨好人类,总是尽力回答人们想听到的内容,尽管这个内容可能不是正确的。当然了,世界上的知识这么多,如果总是人类来教导ChatGPT,那岂不是要训练到猴年马月了,况且这样AI还有什么意义呢?于是ChatGPT的社会化过程便进入了第四个阶段,用机器训练机器,研究员们设计了一个新的人工智能模型来判断ChatGPT的回答是否符合人类的期望,然后让其代替人类去训练ChatGPT,这样循环往复,就诞生了我们现在所见到的神奇的ChatGPT。
李宏毅教授机器学习网站: https://speech.ee.ntu.edu.tw/~hylee/ml/2023-spring.php

浙公网安备 33010602011771号