会员
周边
新闻
博问
闪存
众包
赞助商
YouClaw
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
博客园
首页
新随笔
联系
订阅
管理
2026年3月17日
关于向量, lora, rope 所需要知道的一切
摘要: 向量,线性映射,与向量空间(线性空间) 在数学的严格定义下,向量、向量空间和线性映射确实是三个完全不同层级的数学对象。它们分别扮演着“元素”、“结构”和“关系”的角色。 如果不加区分地混为一谈,是初学线性代数最大的误区。我们可以从集合论和范畴论的角度,清晰地划清它们的界限: 1. 本质定义的差异(它
阅读全文
posted @ 2026-03-17 18:10 玉米面手雷王
阅读(6)
评论(0)
推荐(0)
2026年3月13日
HF Transformers 库 Qwen2 模型调用流程与架构全解析
摘要: 本博客记录一下transformers包中模型的架构和 调用流程, 主要以 qwen2,llama, mixtral模型为例 通过autoclass 调用qwen2模型 关于 autoclass 的更多信息可以看往期的博客: _LazyAutoMapping 与 AutoModel Hugging
阅读全文
posted @ 2026-03-13 11:37 玉米面手雷王
阅读(10)
评论(0)
推荐(0)
2026年3月3日
lora与peft
摘要: lora 解读: https://zhuanlan.zhihu.com/p/646831196 lora 关于秩,矩阵分解,svd的数学原理详解: https://medium.com/@Shrishml/lora-low-rank-adaptation-from-the-first-princip
阅读全文
posted @ 2026-03-03 10:43 玉米面手雷王
阅读(9)
评论(0)
推荐(0)
2026年1月21日
_LazyAutoMapping
摘要: Transformers 源码笔记:_LazyAutoMapping 与 AutoModel 配置匹配逻辑 在 Transformers 库中,AutoModel 系列类(如 AutoModelForCausalLM)的核心能力是根据配置类自动匹配并加载对应的模型类,而实现这一能力的关键是 _Laz
阅读全文
posted @ 2026-01-21 16:36 玉米面手雷王
阅读(7)
评论(0)
推荐(0)
2026年1月20日
mixtral moe
摘要: Mixtral 模型核心层代码详细解释 一、整体概览 这段代码实现了 Mixtral 模型的三个核心类,从上到下依次是: MixtralBlockSparseTop2MLP:单个专家的前馈网络(FFN),采用 Top2 结构 MixtralSparseMoeBlock:块稀疏混合专家(MoE)层,负
阅读全文
posted @ 2026-01-20 10:09 玉米面手雷王
阅读(14)
评论(0)
推荐(0)
2026年1月16日
hf quantizer
摘要: Transformers中PreTrainedModel量化相关代码梳理 你提供的PreTrainedModel类中包含了大量模型量化相关的实现逻辑,核心围绕模型量化的加载、预处理、后处理、存储以及量化模型的特殊约束展开,以下是系统性梳理: 一、核心量化相关核心对象与常量 1. 量化器核心类:HfQ
阅读全文
posted @ 2026-01-16 17:07 玉米面手雷王
阅读(15)
评论(0)
推荐(0)
hf trl rewardmodel
摘要: 奖励模型训练逻辑详细梳理 这份代码实现了基于人类偏好数据的奖励模型(RM)训练,核心是让模型学习区分"优选响应(chosen)"和"劣选响应(rejected)",并输出对应的文本质量评分。接下来将结合具体代码片段,从顶层训练脚本和底层RewardTrainer核心实现两个层面,逐环节拆解详细逻辑。
阅读全文
posted @ 2026-01-16 17:06 玉米面手雷王
阅读(12)
评论(0)
推荐(0)
2026年1月13日
hf trainner
摘要: Hugging Face Trainer 类核心训练流程(完整梳理版) 你需要一份对 Hugging Face Trainer 类核心训练流程的完整梳理,保留所有核心细节且逻辑连贯,下面将从整体架构、三大核心方法、关键核心概念三个维度进行全面整合梳理: 一、整体架构:Trainer 训练的「三段式」
阅读全文
posted @ 2026-01-13 15:44 玉米面手雷王
阅读(13)
评论(0)
推荐(0)
2026年1月9日
hf datasets库 2.md
摘要: 笔记:load_dataset 函数层层向下拆解(完整调用链路与核心逻辑) 一、整体概览:load_dataset 向下调用的五层核心链路 load_dataset 并非直接执行数据处理,而是一个层层封装、向下委托的入口函数,整体遵循「入口封装 → 构建器创建 → 数据源识别 → 格式映射 → 实例
阅读全文
posted @ 2026-01-09 15:53 玉米面手雷王
阅读(9)
评论(0)
推荐(0)
hf datasets库
摘要: Hugging Face Datasets 库核心教程笔记 一、核心定位与学习前提 库的目标:提供简单高效的方式加载、预处理、分享各类数据集,支持文本、图像、音频等多模态数据,兼容 PyTorch、TensorFlow 等主流机器学习框架。 学习前提:具备基础 Python 知识,了解至少一种机器学
阅读全文
posted @ 2026-01-09 15:52 玉米面手雷王
阅读(43)
评论(0)
推荐(0)
下一页
公告