2025 年 11月 20 日随笔档案 - deephub

2025年11月20日

摘要：深度学习模型参数量和训练数据集的爆炸式增长，以 Llama 3.1 为例：4050 亿参数、15.6 万亿 token 的训练量，如果仅靠单 GPU可能需要数百年才能跑完，或者根本无法加载模型。并行计算（Parallelism）通过将训练任务分发到多个 GPU（单机多卡或多机多卡），并利用通信原语阅读全文

posted @ 2025-11-20 21:59 deephub 阅读(5) 评论(0) 推荐(0)

deephub

overfit深度学习

公告