摘要: 1.手算在ipad LLM笔记中 2.full-softmax+ skip-gram代码在kaggle 3.负采样-softmax也在kaggle上 阅读全文
posted @ 2025-10-26 11:32 zhangdudu 阅读(6) 评论(0) 推荐(0)
摘要: 1.蒸馏 KD 与 自蒸馏 SD 普通蒸馏,是有监督(软标签),老师是外部预训练的大模型 自蒸馏,无监督,老师是 自己的历史版本EMA 2.EMA机制 有一个问题,如果学生和老师输出的内容是一致的,那学生什么也学不到。所以 老师网络的参数 = 0.996*老师旧参数 + 0.004*学生参数,这样老 阅读全文
posted @ 2025-10-26 11:24 zhangdudu 阅读(13) 评论(0) 推荐(0)
摘要: 1.层次化 K-means (Hierarchical K-means) 不直接把数据分成k个簇, 第一层先分k1个簇,第二层每个大簇分为k2个小簇,以此类推,形成聚类树 2.平衡采样 对每类样本按比例采样 3.检索式筛选数据 用分类模型,找到数据池和种子数据的相似数据 4. 阅读全文
posted @ 2025-10-26 10:58 zhangdudu 阅读(19) 评论(0) 推荐(0)