摘要:
目录一句话结论一、LoRA dropout 到底在防什么二、工程上最常用的配置区间(直接用)三、什么时候“千万别开” dropout四、一个非常实用的工程判断法五、面试 / 评审级一句话 LoRA dropout 是小样本下的正则化手段,通常 0~0.1 即可;数据足够干净时,直接设为 0 是最稳定 阅读全文
posted @ 2026-01-05 15:04
向着朝阳
阅读(138)
评论(0)
推荐(0)
摘要:
目录一、lora_alpha 在数学上到底干了什么换句话说三、什么时候 α = 2r 是合理的四、什么时候 不应该 用 α = 2r1. r 很大(≥64)2. 数据噪声大 / 标签不干净3. 做的是“知识注入型任务”五、工程上更“正确”的设置方式(推荐)不要问 “α 该不该等于 2r”一个实用表( 阅读全文
posted @ 2026-01-05 11:55
向着朝阳
阅读(114)
评论(0)
推荐(0)

浙公网安备 33010602011771号