摘要: 训练过程 在此示例中,将微调“distilroberta-base”模型。 该formatting_func函数将指令与所选和拒绝的响应相结合,创建两个新字符串。这些字符串被标记化,成为奖励模型的输入,该模型根据这些示例学习区分好响应和坏响应。损失函数的设计方式是最大化所选和拒绝响应的分数之间的差异 阅读全文
posted @ 2025-02-26 23:42 AAA建材王师傅 阅读(879) 评论(0) 推荐(0)
摘要: 一、思维导图 二、subword(子词)粒度 在很多情况下,既不希望将文本切分成单独的词(太大),也不想将其切分成单个字符(太小),而是希望得到介于词和字符之间的子词单元。这就引入了 subword(子词)粒度的分词方法。本文重点介绍这一部分。 2.1 WordPiece 在BERT时代,WordP 阅读全文
posted @ 2025-02-01 22:57 AAA建材王师傅 阅读(29) 评论(0) 推荐(0)
摘要: 作者前言: DeepSeek系列现在非常火,笔者决定主要梳理DeepSeekzui最重要的四代版本: DeepSeek-LLM; DeepSeekMath; DeepSeek-V2; DeepSeek-V3; DeepSeek-R1 敬请期待。 Deepseek系列博客目录 Model 核心 Dat 阅读全文
posted @ 2025-02-01 18:43 AAA建材王师傅 阅读(223) 评论(0) 推荐(0)
摘要: 一、与DeepSeek-v2比较 1. 架构和参数(Architecture and Parameters) DeepSeek-V3采用 Mixture-of-Experts (MoE) 架构,共有6710亿个参数,每个token仅激活370亿个参数。 DeepSeek-V2也使用了MoE框架,但是 阅读全文
posted @ 2025-01-30 12:26 AAA建材王师傅 阅读(285) 评论(0) 推荐(0)
摘要: 预告 放假了写 阅读全文
posted @ 2025-01-21 10:45 AAA建材王师傅 阅读(27) 评论(0) 推荐(0)
摘要: 1. 结构化记忆生成 Chunks(块状记忆): 将文档分割成固定长度的连续文本段 适合处理长上下文任务(如阅读理解) 优点:简单易用,适合存储大量信息 缺点:可能缺乏语义关联性 Knowledge Triples(知识三元组): 提取实体之间的语义关系,以 <头实体; 关系; 尾实体> 的形式表示 阅读全文
posted @ 2025-01-13 13:49 AAA建材王师傅 阅读(81) 评论(0) 推荐(0)
摘要: du -sh * :用于显示当前目录下每个文件和子目录的大小。以下是这个命令中各个部分的作用: du:代表 "disk usage"(磁盘使用情况),用于估算文件和目录所占用的磁盘空间。 -s:代表 "summarize"(汇总),用于显示每个指定文件或目录的总大小,而不是每个文件的详细信息。 -h 阅读全文
posted @ 2024-12-23 10:56 AAA建材王师傅 阅读(53) 评论(0) 推荐(0)
摘要: 补充背景: 关于Transformer和Llama架构的演进 一、背景 LLaMA 2 和 LLaMA2-Chat 参数规模:70亿、130亿和700亿 数据和训练规模: 上下文长度 训练资源 性能表现: 二、预训练 pretraining 1. 预训练数据 · 训练语料来自公开课用的数据源,不包括 阅读全文
posted @ 2024-12-18 11:24 AAA建材王师傅 阅读(245) 评论(0) 推荐(0)
摘要: !声明:本文部分框架及理论来自于 【大猿搬砖简记】 的公众号文章,但为了方便本人学习,进行了整理,同时在这个清晰的框架内添加了一些总结性质的内容,如需看原文请在其公众号中搜索:图解大模型计算加速系列。特此声明。 一、背景知识 LLM推理通常为两阶段: prefill 和 decode。 通常会使用K 阅读全文
posted @ 2024-12-14 14:24 AAA建材王师傅 阅读(351) 评论(0) 推荐(0)
摘要: 1.强化学习和语言模型的联系 agent: 语言模型本身 state: prompt(input tokens) action: 选择哪个token作为下一个token(贪婪,top k,top p) reward model:当生成‘好的回复’语言模型应当被奖励,当生成‘差的回复’语言模型不会受到 阅读全文
posted @ 2024-12-10 16:19 AAA建材王师傅 阅读(258) 评论(0) 推荐(1)