会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
chirp
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
下一页
2024年5月12日
梯度提升Gradient Boosting
摘要: 总览 Gradient Boosting 梯度提升,是一种强大的 ML 技术,用于回归和分类问题。 弱学习算法通常更易发现、更易训练。Boosting 系列算法的基本思想是将弱基础模型组合为一个强大的集成。 Gradient Boosting 的基本思想是:不断重复生成弱学习器,每次生成弱学习器的目
阅读全文
posted @ 2024-05-12 20:09 倒地
阅读(430)
评论(0)
推荐(0)
2024年5月3日
使用 __get__ 向已有类实例注入函数
摘要: 突然有这样的特殊需求:向已经实例化的类对象添加新方法。例如,我的 model 本没有实现 predict_step 方法,现在我想向 model 注入这个函数: def predict_step(self, batch, batch_idx, dataloader_idx=0): logits =
阅读全文
posted @ 2024-05-03 11:07 倒地
阅读(14)
评论(0)
推荐(0)
2024年4月27日
尝试上手大模型的有监督微调
摘要: 总览 这个文章留下微调 Gemma-2b-it 模型的记录。以很简单的、只有一句话的微调为例。 本文最终的目标:问模型 “微调测试”,模型回答 “我学会了”。 准备 加载模型和分词器 tokenizer = AutoTokenizer.from_pretrained( "google/gemma-2
阅读全文
posted @ 2024-04-27 00:44 倒地
阅读(794)
评论(1)
推荐(0)
2024年4月23日
代码层面上学习Gemma模型
摘要: 总览 本文留下调试 Gemma 模型的记录。很乱,但我想不出更好的组织方式了。 gemma-2b 模型被封装在 GemmaForCausalLM 类中,这个类继承于 GemmaPreTrainedModel。 而模型的本体是 GemmaModel 类(这个对象实例包含在 GemmaForCausal
阅读全文
posted @ 2024-04-23 22:06 倒地
阅读(516)
评论(0)
推荐(0)
2024年4月21日
训练时的显存优化
摘要: 总览 HuggingFace 的这篇文章总结了一系列节约显存的方法,非常全面。 训练时显存占用的组成: 模型参数 优化器状态 输入张量和其他临时张量 激活值 梯度 通信缓冲 “激活值” 可能有点难理解。这是指像是 dropout 的 mask、LayerNorm 的 \(\mu\ \sigma^2\
阅读全文
posted @ 2024-04-21 00:05 倒地
阅读(520)
评论(0)
推荐(0)
各种微调Fine-Tuning方法
摘要: 微调 Fine-Tuning 比起从零开始训练,使用预训练模型进行微调是更经济的做法。 全量微调(Full fine-tuning)是指模型所有参数参与到微调。这种简单粗暴的方法并不高效,但也许能获得其他微调方法达不到的效果。 参数高效微调 PEFT PEFT(Parameter Efficient
阅读全文
posted @ 2024-04-21 00:05 倒地
阅读(865)
评论(0)
推荐(0)
2024年4月20日
分词器tokenizers
摘要: 总览 为了让语言变为模型能够理解的形式(tokens),每个字词必须映射为独一无二的序号,这时需要使用分词器 tokenizer 对语言进行转换。例如对于 “are you ok”,gemma 模型的 tokenizer 会将之转换为一个 List:[2, 895, 692, 4634]。 顺便一提
阅读全文
posted @ 2024-04-20 20:54 倒地
阅读(1002)
评论(0)
推荐(0)
2024年4月18日
训练时的显存优化
摘要: 总览 HuggingFace 的这篇文章总结了一系列节约显存的方法,非常全面。 训练时显存占用的组成: 模型参数 优化器状态 输入张量和其他临时张量 激活值 梯度 通信缓冲 “激活值” 可能有点难理解。这是指像是 dropout 的 mask、LayerNorm 的 \(\mu\ \sigma^2\
阅读全文
posted @ 2024-04-18 16:41 倒地
阅读(953)
评论(0)
推荐(0)
2024年4月13日
SurfaceBlur与双边滤波
摘要: Surface Blur 效果 PhotoShop 中有一种叫做 Surface Blur 的效果。 与其他模糊效果不同, Surface Blur 可以在模糊的同时保留图像的边缘特征。使用 Surface Blur 得到的图片,像是油画一般被划分为多个色块。 双边滤波 Bilateral filt
阅读全文
posted @ 2024-04-13 11:24 倒地
阅读(114)
评论(0)
推荐(0)
2024年4月8日
空洞卷积 Dilated Convolution
摘要: 空洞卷积 Dilated Convolution 通常的卷积操作,除了需要指定输入输出通道数,还需要确定卷积核大小 kernei_size、步长 stride、填充大小 padding。 Conv1d(384, 48, kernel_size=3, stride=1, padding=1) 空洞卷积
阅读全文
posted @ 2024-04-08 11:47 倒地
阅读(182)
评论(0)
推荐(0)
上一页
1
2
3
4
5
下一页
公告