Loading

上一页 1 2 3 4 5 6 ··· 18 下一页
摘要: 添加学术代理: source /etc/network_turbo 取消代理: unset http_proxy && unset https_proxy 阅读全文
posted @ 2026-01-06 20:03 SaTsuki26681534 阅读(4) 评论(0) 推荐(0)
摘要: KV-Cache(键值缓存)详解 KV-Cache 是 Transformer 模型在推理(生成)阶段 用于 加速自回归生成 的关键优化技术。让我为您详细解释: 一、核心概念 什么是 KV-Cache? KV-Cache 是缓存 Key(键) 和 Value(值) 的机制,用于减少 Transfor 阅读全文
posted @ 2026-01-06 19:55 SaTsuki26681534 阅读(197) 评论(0) 推荐(0)
摘要: https://zhuanlan.zhihu.com/p/648924115 阅读全文
posted @ 2026-01-06 19:51 SaTsuki26681534 阅读(7) 评论(0) 推荐(0)
摘要: 为什么用lora lora微调中参数设置的意义 config = LoraConfig( task_type=TaskType.CAUSAL_LM, target_modules=["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_pr 阅读全文
posted @ 2026-01-05 21:44 SaTsuki26681534 阅读(29) 评论(0) 推荐(0)
摘要: 过程描述 按教程里的正常流程启动微调后,总会出现cuda out of memory的现象 于是不得不用两个gpu同时训练 这里的代码修改只涉及到设置多gpu进行微调,不涉及量化等 完整微调脚本 import torch from datasets import load_dataset from 阅读全文
posted @ 2026-01-05 20:26 SaTsuki26681534 阅读(16) 评论(0) 推荐(0)
摘要: 你想了解大模型微调过程中不同数值精度的模型加载形式(如半精度FP16、BF16等)的含义、区别,以及它们在实际微调中的应用场景和使用方式,我会从核心概念、各类精度的特点、实操方法三个维度讲清楚,帮你理解为何微调时要选特定的加载精度。 一、核心概念:模型加载精度的本质 大模型的参数本质是浮点数(比如权 阅读全文
posted @ 2026-01-05 16:11 SaTsuki26681534 阅读(35) 评论(0) 推荐(0)
摘要: BaseLLM.call 方法(即直接调用 LLM 对象)迁移至 invoke 方法 在原来报错的代码中,是用“llm("你是谁")”来调用回复 这种用法会直接调用BaseLLM.call 方法,导致如下报错: /root/miniconda3/lib/python3.10/site-package 阅读全文
posted @ 2026-01-05 11:09 SaTsuki26681534 阅读(2) 评论(0) 推荐(0)
摘要: API(应用程序编程接口,Application Programming Interface)是一组定义软件组件之间如何交互的规则和协议。它可以被看作是不同软件系统或组件之间的桥梁,让它们能够相互“对话”和交换数据。API 为开发人员提供了以标准化方式访问功能和数据的方法,而无需了解背后的实现细节。 阅读全文
posted @ 2025-12-16 19:54 SaTsuki26681534 阅读(17) 评论(0) 推荐(0)
摘要: 描述 项目里有这样一句代码: out2 = self.conv_blk(torch.cat([x, out1], dim=1)) x和out1的形状都是这样的: out1.shape: torch.Size([16, 180, 32, 32]) channel_first格式,即通道数为180 尝试 阅读全文
posted @ 2025-12-11 21:58 SaTsuki26681534 阅读(8) 评论(0) 推荐(0)
摘要: 一、整体语法结构 norm_layer: Callable[..., torch.nn.Module] = partial(nn.LayerNorm, eps=1e-6) 这是Python 3.6+支持的变量类型注解语法,核心格式为: 变量名: 类型注解 = 变量值 「类型注解」仅用于标注变量的预期 阅读全文
posted @ 2025-12-10 15:49 SaTsuki26681534 阅读(4) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 ··· 18 下一页