2025 年 3月 24 日随笔档案 - xiezhengcai

2025年3月24日

摘要：注意点： torch.nn.CrossEntropyLoss中的ignore index 是作用在target上 torch.nn.CrossEntropyLoss 最终交叉熵的值是平均值统计平均值的时候，不会统计ignore index的公式中的值是以自然数e为底对于 C 类分类任务，交叉熵阅读全文

posted @ 2025-03-24 21:14 xiezhengcai 阅读(201) 评论(0) 推荐(0)

PyTorch nn.Embedding 初始化数据范围解析

摘要： ![](https://img2024.cnblogs.com/blog/369406/202503/369406-20250324210103633-1540745538.png) ![](https://img2024.cnblogs.com/blog/369406/202503/369406-20250324210141040-419718486.png) ![](https://img20 阅读全文

posted @ 2025-03-24 21:03 xiezhengcai 阅读(35) 评论(0) 推荐(0)

nn.Linear的初始化默认值范围

摘要： PyTorch 默认行为：nn.Linear 的权重默认使用 Kaiming 均匀分布（mode='fan_in', nonlinearity='relu'），偏置初始化为 0。阅读全文

posted @ 2025-03-24 20:55 xiezhengcai 阅读(132) 评论(0) 推荐(0)

稀疏专家模型实现，关键流程分析

摘要：将数据压平通过 nn.Linear(cfg.in_feature, cfg.expert_num) 得到专家权重通过 torch.topk 得到每个top上的权重，以及以专家索引为value的专家 (batch_size*seq_len,top_k) ，它表示每个token在不同top_ 阅读全文

posted @ 2025-03-24 17:16 xiezhengcai 阅读(39) 评论(0) 推荐(0)

無名

大猫咪与小狮子

公告