认识大模型

1.如何使用大模型

阿里云(K8s容器服务、Serverless架构等),千问

2.大模型的训练

预训练、SFT(监督微调)以及RLHF(基于人类反馈的强化学习)

预训练:预测(补全句子),Transformer框架

SFT:按照人类意图回答专业问题、预测(但是模型的回答有时候可能不符合人类的偏好,可能输出涉黄、涉政、涉暴或者宗族歧视等言论)

RLHF:

3.大模型的特点

  1. 规模和参数量大
  2. 适应性和灵活性强
  3. 广泛数据集的预训练(数据成本很值钱)
  4. 计算资源需求大

主要功能:降本增效

4.大模型的分类

  1. 大语言模型(LLM):专注于自然语言处理(NLP),旨在处理语言、文章、对话等自然语言文本。它们通常基于深度学习架构(Transformer模型),经过大规模文本数据集训练而成。能够捕捉语言的复杂性
  2. 多模态模型:计算机视觉模型、音频处理模型

5.大模型的工作流程

  1. 分词化与词表映射

    分词化是自然语言处理NLP中重要的概念,它是将段落和句子分割成更小的分词(token)的过程。

    将一个句子分解成更小的、独立的部分可以帮助计算机理解句子的各个部分,以及它们上下文中的作用

    词粒度、字符粒度、子词粒度,每一个token都会通过预先设置好的词表,映射为一个token id,这是token的身份证,

    一句话最终会被表示为一个元素为token id 的列表

  2. 文本生成过程

posted @ 2025-03-07 02:04  Michael_Z  阅读(60)  评论(0)    收藏  举报