摘要:
大模型和小模型的差异 比较项 小模型 大模型 算力需求 单卡训练 显卡集群训练,成本高 算法 参数在百万级别(M) 参数在十亿界别(B) 训练数据量 功能适用性 单一,只能处理单个场景下的业务 大模型训练时间估算 训练时间t = (8 * T * P) / (n * E * x) 其中: 训练时间t 阅读全文
posted @ 2025-06-01 11:17
jeasonzhou
阅读(226)
评论(0)
推荐(0)
摘要:
Transformer架构 embedding 层的参数量 = 词汇表数量 * 嵌入维度 为什么要使用transformer算法架构 传统的RNN、CNN等算法架构存在的问题: 扩展能力差 泛化能力弱 Transformer的优势 自注意力机制:计算和使用序列中任意文本之间的依赖关系 位置编码:能够 阅读全文
posted @ 2025-06-01 11:12
jeasonzhou
阅读(77)
评论(0)
推荐(0)

浙公网安备 33010602011771号