摘要: 1.KL散度 衡量两个概率分布之间的差距(信息损失) 阅读全文
posted @ 2025-11-12 10:09 zhangdudu 阅读(5) 评论(0) 推荐(0)
摘要: 1.loos_spike(损失尖刺) 解决办法: 1.梯度裁剪:对L2范数设置上限,防止爆炸 2.学习率调度,采用warm-up或动态调整学习率 3.辅助损失、正则化 4.混合精度训练 5.数据清洗,批次归一化 阅读全文
posted @ 2025-11-04 16:48 zhangdudu 阅读(5) 评论(0) 推荐(0)
摘要: 1.手算在ipad LLM笔记中 2.full-softmax+ skip-gram代码在kaggle 3.负采样-softmax也在kaggle上 阅读全文
posted @ 2025-10-26 11:32 zhangdudu 阅读(6) 评论(0) 推荐(0)
摘要: 1.蒸馏 KD 与 自蒸馏 SD 普通蒸馏,是有监督(软标签),老师是外部预训练的大模型 自蒸馏,无监督,老师是 自己的历史版本EMA 2.EMA机制 有一个问题,如果学生和老师输出的内容是一致的,那学生什么也学不到。所以 老师网络的参数 = 0.996*老师旧参数 + 0.004*学生参数,这样老 阅读全文
posted @ 2025-10-26 11:24 zhangdudu 阅读(13) 评论(0) 推荐(0)
摘要: 1.层次化 K-means (Hierarchical K-means) 不直接把数据分成k个簇, 第一层先分k1个簇,第二层每个大簇分为k2个小簇,以此类推,形成聚类树 2.平衡采样 对每类样本按比例采样 3.检索式筛选数据 用分类模型,找到数据池和种子数据的相似数据 4. 阅读全文
posted @ 2025-10-26 10:58 zhangdudu 阅读(19) 评论(0) 推荐(0)
摘要: 组合问题: 从给定的一组元素中找出所有可能的组合,例如子集、组合总和等问题。 排列问题: 对一组元素进行排列,找出所有可能的排列方式,例如全排列问题。 子集问题: 找出给定集合的所有子集,包括空集和本身。 棋盘类问题: 如八皇后问题、数独问题,需要在一个棋盘上放置元素并满足一定条件。 路径问题: 在 阅读全文
posted @ 2024-02-06 11:00 zhangdudu 阅读(24) 评论(0) 推荐(0)
摘要: vector<string> words= {"abcw","asd","awgf","dggg"} for (int i = 0; i < n; ++i) { for (char ch : words[i]) { mask[i] |= 1 << (ch - 'a'); } } 给定string “ 阅读全文
posted @ 2024-02-03 17:06 zhangdudu 阅读(18) 评论(0) 推荐(0)
摘要: 使用范围: 查找元素: 在有序数组中查找一个特定的元素。 找到边界: 查找有序数组中某个值的第一个或最后一个出现的位置。 搜索旋转排序数组: 在旋转排序数组中查找一个特定的元素。 查找峰值元素: 在数组中查找峰值元素。 求平方根: 计算一个非负整数的平方根。 搜索区间: 在有序数组中找到给定目标值的 阅读全文
posted @ 2024-02-02 11:36 zhangdudu 阅读(9) 评论(0) 推荐(0)
摘要: git clone http://github.com/CosmosHua/locate new git clone http://github.com/CosmosHua/locate.git new git clone git://github.com/CosmosHua/locate new 阅读全文
posted @ 2022-09-07 20:57 zhangdudu 阅读(38) 评论(0) 推荐(0)
摘要: 1 $ git config --global user.name "runoob" $ git config --global user.email test@runoob.com2 要检查已有的配置信息,可以使用 git config --list 命令: $ git config --list 阅读全文
posted @ 2022-09-07 20:56 zhangdudu 阅读(39) 评论(0) 推荐(0)