导航

目前常见LLM的上下文长度

Posted on 2025-04-08 19:17  蝈蝈俊  阅读(2181)  评论(0)    收藏  举报

一般情况下模型中 token 和字数的换算比例大致如下:

  • 1 个英文字符 ≈ 0.3 个 token,1 个token大约为 4 个英文字符或 0.75 个英文文本单词。
  • 1 个中文字符 ≈ 0.6 个 token。

为了让token长度有所感知,下面是一些知名图书和剧本的情况:

  • 《哈利波特与魔法石》全文约 8W 英文单词 ,大致12K token
  • 《老人与海》(The Old Man and the Sea) by Ernest Hemingway: 这本小说的英文版大约有 27,000 个单词。token长度大约在 4W tokens 左右。
  • 莎士比亚的《哈姆雷特》(Hamlet): 英文剧本大约有 3W 个单词。token长度大约在 4W tokens 左右。

过去几年最初LLM的上下文token只是8K左右,年初主流在用的已经64K了,现在出来128K的都不好意思说,最近出来的1M的也不少,Llama更是达到10M了。

DeepSeek

https://api-docs.deepseek.com/zh-cn/quick_start/pricing

模型 deepseek-chat deepseek-reasoner
上下文长度 64K 64K
最大思维链长度 - 32K
最大输出长度 8K 8K
  • deepseek-chat 模型对应 DeepSeek-V3;deepseek-reasoner 模型对应 DeepSeek-R1。
  • 思维链为deepseek-reasoner模型在给出正式回答之前的思考过程
  • 如未指定 max_tokens,默认最大输出长度为 4K。

阿里的 Qwen 系列

相关文档
https://qwen.readthedocs.io/zh-cn/latest/

我们以阿里云提供的为准:
https://bailian.console.aliyun.com/?tab=doc#/list/?type=model&url=%2Fzh%2Fmodel-studio%2Fmodels

Qwen2.5

https://github.com/QwenLM/Qwen2.5

上下文长度最多支持 128K 个 token,最多可生成 8K 个 token。

https://huggingface.co/collections/Qwen/qwen25-66e81a666513e518adb90d9e

DeepSeek-R1-Distill-Qwen-32B 这样的模型的Base Model是 Qwen2.5-32B, 上下文长度也一样。
https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

QwQ

基于 Qwen2.5 模型训练的 QwQ 推理模型。

https://huggingface.co/collections/Qwen/qwq-674762b79b75eac01735070a

上下文长度:128K
最大输入: 96K
最大思维链长度: 32K
最大回复长度: 8K

QVQ-Max

视觉推理模型,支持视觉输入及思维链输出

https://huggingface.co/Qwen/QVQ-72B-Preview

上下文长度:120K
最大输入: 96K 单图最大16384
最大思维链长度: 16K
最大回复长度: 8K

谷歌的 Gemma 和 Gemini

https://ai.google.dev/gemini-api/docs/long-context?hl=zh-cn

Gemini 2.5 Pro

2025 年 3 月 更新
输入令牌限制: 1M
输出令牌限制: 64K

Gemini 2.0 Flash

2025 年 2 月 更新
输入令牌限制: 1M
输出令牌限制: 8K

Gemma 3

https://huggingface.co/models?search=google/gemma

输入令牌限制: 4B、12B 和 27B 大小的总输入上下文为 128K 个 token,1B 大小的总输入上下文为 32K 个 token
输出令牌限制: 8K

https://ai.google.dev/gemma/docs/core/model_card_3

Llama

https://www.llama.com/docs/model-cards-and-prompt-formats/llama4_omni/

  • Llama 4 Scout:共有1090亿参数,17B活跃参数,16个专家,1000万Token上下文窗口(约2000万字文本或20小时视频)
  • Llama 4 Maverick:共有4000亿参数,17B活跃参数,128个专家,100万上下文

马斯克的 Grok 3

https://grok.cadn.net.cn/docs_cn/models.html

Grok 3 的上下文长度支持 100 万 token, 输出16K。

OpenAI 系列

gpt-4.5-preview、gpt-4o

https://platform.openai.com/docs/models/

输入上下文长度: 128K
最大输出: 16K

o3-mini

https://platform.openai.com/docs/models/o3-mini

输入上下文长度: 20W
最大输出: 10W

Anthropic 的 Claude 3.7 Sonnet

https://www.anthropic.com/claude/sonnet

输入上下文长度: 200K
最大输出长度: 在扩展思考模式下可达128K

总结与展望

当前LLM上下文长度的发展现状

近年来,大型语言模型(LLM)的上下文长度(context length)经历了显著增长:从最初的8K token,到年初主流的64K,再到如今128K已成为标配,部分模型甚至突破1M(如Llama 4 Scout的10M、Grok 3的1M)。

输入长度:主流模型(如DeepSeek-V3、Qwen2.5、Gemini 2.5 Pro)普遍支持64K–128K,部分(如Claude 3.7 Sonnet、Llama)达到百万级。

输出长度:多数限制在8K–16K,但谷歌Gemini 2.5 Pro支持64K输出,OpenAI的o3-mini甚至允许10W token输出。

后续趋势展望

LLM的上下文长度竞赛将持续升温,但技术重点可能从“单纯扩展数字”转向“高效利用长上下文”,同时结合多模态、推理能力,推动AI在复杂任务中的实用化落地。

  • 百万级(1M+)上下文可能从“突破性”变为“标配”,尤其面向企业级长文档处理、视频分析等场景。
  • 当前输出长度(8K–16K)可能难以满足复杂任务(如长篇报告生成),未来或向64K–100K演进
  • 视觉模型、推理模型的发展必然会导致LLM增大上下文。
  • 超长上下文的计算成本仍是瓶颈,LLM厂商可能会优化计费策略,到时候垂直行业(法律、医疗)的长文本分析或成为主要应用场景。