会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
博客园
首页
新随笔
联系
订阅
管理
2026年3月3日
lora与peft
摘要: lora 解读: https://zhuanlan.zhihu.com/p/646831196 lora 关于秩,矩阵分解,svd的数学原理详解: https://medium.com/@Shrishml/lora-low-rank-adaptation-from-the-first-princip
阅读全文
posted @ 2026-03-03 10:43 玉米面手雷王
阅读(3)
评论(0)
推荐(0)
2026年1月21日
_LazyAutoMapping
摘要: Transformers 源码笔记:_LazyAutoMapping 与 AutoModel 配置匹配逻辑 在 Transformers 库中,AutoModel 系列类(如 AutoModelForCausalLM)的核心能力是根据配置类自动匹配并加载对应的模型类,而实现这一能力的关键是 _Laz
阅读全文
posted @ 2026-01-21 16:36 玉米面手雷王
阅读(5)
评论(0)
推荐(0)
2026年1月20日
mixtral moe
摘要: Mixtral 模型核心层代码详细解释 一、整体概览 这段代码实现了 Mixtral 模型的三个核心类,从上到下依次是: MixtralBlockSparseTop2MLP:单个专家的前馈网络(FFN),采用 Top2 结构 MixtralSparseMoeBlock:块稀疏混合专家(MoE)层,负
阅读全文
posted @ 2026-01-20 10:09 玉米面手雷王
阅读(10)
评论(0)
推荐(0)
2026年1月16日
hf quantizer
摘要: Transformers中PreTrainedModel量化相关代码梳理 你提供的PreTrainedModel类中包含了大量模型量化相关的实现逻辑,核心围绕模型量化的加载、预处理、后处理、存储以及量化模型的特殊约束展开,以下是系统性梳理: 一、核心量化相关核心对象与常量 1. 量化器核心类:HfQ
阅读全文
posted @ 2026-01-16 17:07 玉米面手雷王
阅读(13)
评论(0)
推荐(0)
hf trl rewardmodel
摘要: 奖励模型训练逻辑详细梳理 这份代码实现了基于人类偏好数据的奖励模型(RM)训练,核心是让模型学习区分"优选响应(chosen)"和"劣选响应(rejected)",并输出对应的文本质量评分。接下来将结合具体代码片段,从顶层训练脚本和底层RewardTrainer核心实现两个层面,逐环节拆解详细逻辑。
阅读全文
posted @ 2026-01-16 17:06 玉米面手雷王
阅读(9)
评论(0)
推荐(0)
2026年1月13日
hf trainner
摘要: Hugging Face Trainer 类核心训练流程(完整梳理版) 你需要一份对 Hugging Face Trainer 类核心训练流程的完整梳理,保留所有核心细节且逻辑连贯,下面将从整体架构、三大核心方法、关键核心概念三个维度进行全面整合梳理: 一、整体架构:Trainer 训练的「三段式」
阅读全文
posted @ 2026-01-13 15:44 玉米面手雷王
阅读(11)
评论(0)
推荐(0)
2026年1月9日
hf datasets库 2.md
摘要: 笔记:load_dataset 函数层层向下拆解(完整调用链路与核心逻辑) 一、整体概览:load_dataset 向下调用的五层核心链路 load_dataset 并非直接执行数据处理,而是一个层层封装、向下委托的入口函数,整体遵循「入口封装 → 构建器创建 → 数据源识别 → 格式映射 → 实例
阅读全文
posted @ 2026-01-09 15:53 玉米面手雷王
阅读(9)
评论(0)
推荐(0)
hf datasets库
摘要: Hugging Face Datasets 库核心教程笔记 一、核心定位与学习前提 库的目标:提供简单高效的方式加载、预处理、分享各类数据集,支持文本、图像、音频等多模态数据,兼容 PyTorch、TensorFlow 等主流机器学习框架。 学习前提:具备基础 Python 知识,了解至少一种机器学
阅读全文
posted @ 2026-01-09 15:52 玉米面手雷王
阅读(35)
评论(0)
推荐(0)
2026年1月8日
hf trainingarguments and argparser
摘要: 笔记:TrainingArguments 核心实现与 __post_init__ 作用 一、TrainingArguments 核心定位 功能:Hugging Face Transformers 库中训练循环配置的一站式管理类,封装训练、评估、优化、分布式、日志等全流程参数。 设计理念 专注训练循环
阅读全文
posted @ 2026-01-08 15:34 玉米面手雷王
阅读(18)
评论(0)
推荐(0)
2026年1月7日
hf tokenizer
摘要: Hugging Face Transformers 分词器核心类笔记 一、 核心类关系与定位 1. 继承关系 graph TD PreTrainedTokenizerBase --> PreTrainedTokenizer PreTrainedTokenizerBase --> PreTrained
阅读全文
posted @ 2026-01-07 16:21 玉米面手雷王
阅读(8)
评论(0)
推荐(0)
下一页
公告