认识大模型

1.如何使用大模型

阿里云(K8s容器服务、Serverless架构等)，千问

2.大模型的训练

预训练、SFT(监督微调)以及RLHF(基于人类反馈的强化学习)

预训练：预测(补全句子)，Transformer框架

SFT：按照人类意图回答专业问题、预测(但是模型的回答有时候可能不符合人类的偏好，可能输出涉黄、涉政、涉暴或者宗族歧视等言论)

RLHF：

3.大模型的特点

规模和参数量大
适应性和灵活性强
广泛数据集的预训练（数据成本很值钱）
计算资源需求大

主要功能：降本增效

4.大模型的分类

大语言模型（LLM）：专注于自然语言处理(NLP)，旨在处理语言、文章、对话等自然语言文本。它们通常基于深度学习架构（Transformer模型），经过大规模文本数据集训练而成。能够捕捉语言的复杂性
多模态模型：计算机视觉模型、音频处理模型

5.大模型的工作流程

分词化与词表映射

分词化是自然语言处理NLP中重要的概念，它是将段落和句子分割成更小的分词(token)的过程。

将一个句子分解成更小的、独立的部分可以帮助计算机理解句子的各个部分，以及它们上下文中的作用

词粒度、字符粒度、子词粒度，每一个token都会通过预先设置好的词表，映射为一个token id，这是token的身份证，

一句话最终会被表示为一个元素为token id 的列表
文本生成过程

posted @ 2025-03-07 02:04 Michael_Z 阅读(97) 评论(0) 收藏举报

刷新页面返回顶部