AI产品视角下的ChatGPT

AI产品视角下的ChatGPT

"ChatGPT:Optimizing Language Models for Dialogue"

我的公众号文章地址:https://mp.weixin.qq.com/s?__biz=MzUyMTA2Mjk2NQ==&mid=2247484536&idx=1&sn=04743c36f7ab3010f75c530eeeaafcbd&chksm=f9e19b22ce961234a7649cd0bb1c8ae8ca9d804a01b9a7ee9bff1807590b4612e86f8ee39e14&token=235322077&lang=zh_CN#rd

ChatGPT使用体验

  • 内容创作【创作小说提纲、编写小说开篇】

ChatGPT使用体验

  • 代码编写【生成markdown解析器】

ChatGPT使用体验

  • “检索问答”【知识截止于21年9月】

ChatGPT使用体验

  • “安全模型”

ChatGPT主要特点

主要特性

  • 支持连续多轮对话,根据用户的输入连续生成回答
  • 可以主动承认自身错误
    • 若用户指出其错误,模型会听取意见并优化答案
  • 可以质疑不正确的问题,并给出“正能量”答复
  • 可以承认自身的无知:承认对专业技术的不了解

“认知误区”

  • 不是搜索引擎,是基于语言模型,推断输入意图,生成对应文本
  • 模型数据输入截止21年9月,时效性
  • 模型本身无法确认自身输出的真实性使用者需自行判断
  • 可以作为人的能力的延伸,但不能完全代替人类的思考
  • 开放领域的大模型,未针对指定领域特别设计
    • 需要使用者提供足够充分的prompt【描述需求】

ChatGPT的发展历史

模型时间线

模型发布时间 层数 头数 词向量长度 参数量 预训练数据量 论文地址
GPT-1 2018年6月 12 12 768 1.17 亿 约 5GB https://pa...
GPT-2 2019年2月 48 - 1600 15 亿 40GB https://pa...
GPT-3 2020年5月 96 96 12888 1,750 亿 45TB https://pa...
InstructGPT 2022年2月 - - - - - https://pa...
ChatGPT 2022年11月 - - - - - -

ChatGPT的发展历史

模型解读

  • 👉GPT1【无监督学习】:自左向右生成式的构建预训练任务+简单的微调
  • 👉GPT2【多任务学习】:使用更多参数、训练数据 >使用无监督的预训练模型做有监督的任务
    • 重要思想:“所有的有监督学习都是无监督语言模型的一个子集”,这个思想也是提示学习(Prompt Learning)的前身
  • 👉GPT3【海量参数】:1759亿参数量,并且训练使用了情境学习(In-context Learning)[1]
    • [1]元学习(Meta-learning)的一种,元学习的核心思想在于通过少量的数据寻找一个合适的初始化范围,使得模型能够在有限的数据集上快速拟合,并获得不错的效果

👉预训练模型的偏见性

  • 因预训练模型都是通过海量数据在超大参数量级的模型上训练出来的[黑盒子]
  • 没人能保证预训练模型不会生成一些“危险内容”,因它超大训练数据很可能包含类似的样本

👉InstructGPT/ChatGPT:有用的(Helpful)、可信的(Honest)、无害的(Harmless)

ChatGPT的简单的技术原理

大参数的预训练生成语言模型

  • 根据采集的SFT数据集对GPT-3.5进行有监督的微调(Supervised FineTune,SFT)

  • 收集人工标注的对比数据,训练奖励模型(Reword Model,RM)

  • 使用RM作为强化学习的优化目标,利用PPO算法微调SFT模型(Proximal Policy Optimization,近端策略优化)

基于GPT3.5训练监督策略模型

SFT模型【Supervised Fine-Tuning】

  • 首先在数据集中随机抽取问题,由人类标注人员给出高质量答案
  • 然后用这些人工标注好的数据来微调GPT3.5(获得SFT模型, Supervised Fine-Tuning)
    • 使其初步具备理解指令的意图
  • 此时的SFT模型在遵循指令/对话方面已经优于 GPT-3.5,但不一定符合人类偏好

基于专家标注结果微调GPT模型

训练奖励模型

主要是通过人工标注训练数据,来训练回报模型

  • 在数据集中随机抽取问题,用第一阶段生成的模型,对每个问题生成多个不同回答【问题-答案对】
  • 人类标注者对这些结果综合考虑给出排名顺序【这一过程类似于教练或老师辅导】
  • 使用这个排序结果数据来训练奖励模型

专家标注【问题-答案-排序】训练数据,调节参数使高质量回答的打分>低质量的打分

近端策略优化

强化学习来优化策略

  • 在数据集中随机抽取问题,使用PPO模型生成回答【PPO模型用SFT初始化】
  • 用训练好的RM模型给出质量分数
  • 再通过强化学习的方式来更新PPO模型参数

指导训练对象每一步如何决策,采用什么样的"行动"可以使回答的效果更好【更新参数】

ChatGPT原理通俗解读


  • OpenAI使用RLHF【人类反馈强化学习】技术对【预训练语言模型】进行训练优化
  • 得到大语言模型LLM
  • 并基于prompting【提示】来适应不同领域的任务
  • “仿真性”感知上“智力提升”,本质上是“在用人类所喜欢的方式回答”

预训练模型通俗解读

之前对智能模型的认知:

  • 例如一个能分辨狗品种的Agent,需要你提供A-柴犬,B-柯基这样的数据集给他,让它学习不同品种之间的特征差异,从而学会分辨狗品种这项能力

通过一个大一统模型先来认识这个世界。再带着对这个世界的认知对具体领域进行降维打击

  • 将海量的文本语料,直接喂给模型进行学习
  • 在这其中模型对词性、句法的学习自然而然会沉淀在模型的参数当中

chatgpt:拥有3000亿单词的语料基础上预训练出的拥有1750亿参数的模型

3000亿单词就是训练数据,1750亿参数就是AI对这个世界的理解
一部分沉淀了Agent对各类语法、句法的学习
另一部分参数参数则储存了AI对于事实的认知

GPT与BERT

NLP任务->“猜概率”游戏

LLM大语言模型,演化出Bert和GPT,但理念有所不同

  • BERT:
    • 预训练:Masking Input【完形填空,预测什么被盖住】
      • 双向:“结合空格两端的信息来猜测空格内应该是哪个单词” 如:“我坐__去上班”
    • 微调:fine-tuning
      • 做专业领域任务时,需收集相关的专业领域数据,做小幅模型调整更新相关参数
    • 示例:AI情绪分析
  • GPT:
    • 预训练:Predict Next Token【预测下一个token是什么】
      • 自回归:“从左往右做预测,不会利用文本中右侧的内容” 如:“我坐...”
    • 提示/指示:Prompting
      • 做专业领域的任务时,提供给它一些示例或引导。不用更新模型参数

应用方向 应用场景
BERT 自然语言理解 问答系统、句子相似度、文本分类、情感分析、命名实体识别
GPT 自然语言生成 文本生成/续写、语言翻译、对话生成、摘要生成

ChatGPT的“影响”

  • 加速“决策/分析AI(Discriminant/Analytical AI)”->“生成AI(Generative AI)”的演化
  • 降低了非专业领域对“人工智能”的认知难度,在一定程度预示着“通用人工智能”领域的到来
  • "大模型时代到来了!"

大模型与AIGC

【创意相关的下游产业】:图片、游戏、动画 :600个GPT3的应用案例

【科学技术】:编程、算法【一步到位的设计模型/给出最优解答】

:在chatgpt内'搭建'神经网络:CodeGeeX编程

【编写创作】:小说、剧本、论文、周报、UGC等 :蒲公英TracupAI

【个人集成到终端智能助理】:联动语音模型、助手

【知识库管理】:“类似于电脑的拓展硬盘,人类的外脑”

附注

注册体验ChatGPT的方法

注册方法 - https://note.youdao.com/s/XqoJbMJ2


第三方体验
https://freegpt.oneps:可能已崩

第三方体验

技术资料

个人站点

Thanks!

posted @ 2023-03-11 17:30  OCEANEYES.GZY  阅读(104)  评论(0编辑  收藏  举报