随笔档案「2026年1月30日」：大模型如何训练百万 Token 上下文：上下文... - deephub

2026年1月30日

大模型如何训练百万 Token 上下文：上下文并行与 Ring Attention

摘要：只用了几年时间，上下文窗口就从 4k 膨胀到 1000 万。Meta 发布的 Llama 4 Scout 的时候说这个模型支持 1000 万 Token，是 Llama 3 那 128k 的 78 倍。而Google Gemini 3 Pro 是 100 万，Claude 4 也桐乡市100万。一阅读全文

posted @ 2026-01-30 22:36 deephub 阅读(4) 评论(0) 推荐(0)

deephub

overfit深度学习

公告