随笔档案「2025年6月1日」：大模型训练资源计算 ... - jeasonzhou

2025年6月1日

摘要：大模型和小模型的差异比较项小模型大模型算力需求单卡训练显卡集群训练，成本高算法参数在百万级别(M) 参数在十亿界别(B) 训练数据量功能适用性单一，只能处理单个场景下的业务大模型训练时间估算训练时间t = (8 * T * P) / (n * E * x) 其中：训练时间t 阅读全文

posted @ 2025-06-01 11:17 jeasonzhou 阅读(274) 评论(0) 推荐(0)

Transformer详解

摘要： Transformer架构 embedding 层的参数量 = 词汇表数量 * 嵌入维度为什么要使用transformer算法架构传统的RNN、CNN等算法架构存在的问题：扩展能力差泛化能力弱 Transformer的优势自注意力机制：计算和使用序列中任意文本之间的依赖关系位置编码：能够阅读全文

posted @ 2025-06-01 11:12 jeasonzhou 阅读(85) 评论(0) 推荐(0)

Loading

jeasonzhou