AAA建材王师傅

2025年2月26日

摘要：训练过程在此示例中，将微调“distilroberta-base”模型。该formatting_func函数将指令与所选和拒绝的响应相结合，创建两个新字符串。这些字符串被标记化，成为奖励模型的输入，该模型根据这些示例学习区分好响应和坏响应。损失函数的设计方式是最大化所选和拒绝响应的分数之间的差异阅读全文

posted @ 2025-02-26 23:42 AAA建材王师傅阅读(928) 评论(0) 推荐(0)

2025年2月1日

Tokenizer

摘要：一、思维导图二、subword（子词）粒度在很多情况下，既不希望将文本切分成单独的词（太大），也不想将其切分成单个字符（太小），而是希望得到介于词和字符之间的子词单元。这就引入了 subword（子词）粒度的分词方法。本文重点介绍这一部分。 2.1 WordPiece 在BERT时代，WordP 阅读全文

posted @ 2025-02-01 22:57 AAA建材王师傅阅读(32) 评论(0) 推荐(0)

DeepSeek LLM

摘要：作者前言： DeepSeek系列现在非常火，笔者决定主要梳理DeepSeekzui最重要的四代版本： DeepSeek-LLM; DeepSeekMath; DeepSeek-V2; DeepSeek-V3; DeepSeek-R1 敬请期待。 Deepseek系列博客目录 Model 核心 Dat 阅读全文

posted @ 2025-02-01 18:43 AAA建材王师傅阅读(238) 评论(0) 推荐(0)

2025年1月30日

DeepSeek-V3

摘要：一、与DeepSeek-v2比较 1. 架构和参数（Architecture and Parameters） DeepSeek-V3采用 Mixture-of-Experts (MoE) 架构，共有6710亿个参数，每个token仅激活370亿个参数。 DeepSeek-V2也使用了MoE框架，但是阅读全文

posted @ 2025-01-30 12:26 AAA建材王师傅阅读(300) 评论(0) 推荐(0)

2025年1月21日

Byte Latent Transformer: Patches Scale Better Than Tokens 笔记

摘要：预告放假了写阅读全文

posted @ 2025-01-21 10:45 AAA建材王师傅阅读(29) 评论(0) 推荐(0)

2025年1月13日

Agent-Memory 概述

摘要： 1. 结构化记忆生成 Chunks（块状记忆）：将文档分割成固定长度的连续文本段适合处理长上下文任务（如阅读理解）优点：简单易用，适合存储大量信息缺点：可能缺乏语义关联性 Knowledge Triples（知识三元组）：提取实体之间的语义关系，以 <头实体; 关系; 尾实体> 的形式表示阅读全文

posted @ 2025-01-13 13:49 AAA建材王师傅阅读(91) 评论(0) 推荐(0)

2024年12月23日

Linux常用命令总结

摘要： du -sh * ：用于显示当前目录下每个文件和子目录的大小。以下是这个命令中各个部分的作用： du：代表 "disk usage"（磁盘使用情况），用于估算文件和目录所占用的磁盘空间。 -s：代表 "summarize"（汇总），用于显示每个指定文件或目录的总大小，而不是每个文件的详细信息。 -h 阅读全文

posted @ 2024-12-23 10:56 AAA建材王师傅阅读(63) 评论(0) 推荐(0)

2024年12月18日

LLaMA (以LLaMA2为例，文末附加对比1 2 3 三个版本的变化）

摘要：补充背景：关于Transformer和Llama架构的演进一、背景 LLaMA 2 和 LLaMA2-Chat 参数规模：70亿、130亿和700亿数据和训练规模：上下文长度训练资源性能表现：二、预训练 pretraining 1. 预训练数据 · 训练语料来自公开课用的数据源，不包括阅读全文

posted @ 2024-12-18 11:24 AAA建材王师傅阅读(253) 评论(0) 推荐(0)

2024年12月14日

vllm

摘要：！声明：本文部分框架及理论来自于【大猿搬砖简记】的公众号文章，但为了方便本人学习，进行了整理，同时在这个清晰的框架内添加了一些总结性质的内容，如需看原文请在其公众号中搜索：图解大模型计算加速系列。特此声明。一、背景知识 LLM推理通常为两阶段： prefill 和 decode。通常会使用K 阅读全文

posted @ 2024-12-14 14:24 AAA建材王师傅阅读(379) 评论(0) 推荐(0)

2024年12月10日

基于人类反馈的强化学习 RLHF

摘要： 1.强化学习和语言模型的联系 agent: 语言模型本身 state: prompt(input tokens) action: 选择哪个token作为下一个token（贪婪，top k,top p） reward model：当生成‘好的回复’语言模型应当被奖励，当生成‘差的回复’语言模型不会受到阅读全文

posted @ 2024-12-10 16:19 AAA建材王师傅阅读(273) 评论(0) 推荐(1)

zz-w

公告