Qwen3:思深行速,AI大模型的新境界

 Qwen 3 最新上线,更新了全新的qwen3系列模型。这一系列模型在性能与效率上都实现了质的飞跃,成为AI领域的又一重要里程碑。

Qwen3:突破性能与效率的平衡点

今天,我们很高兴向大家介绍Qwen系列大型语言模型的最新成员——Qwen3。访问QwQ32.com/qwen3可以了解更多详情。旗舰模型Qwen3-235B-A22B在代码、数学和通用能力等基准测试中,与DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro等顶级模型相比,展现出极具竞争力的表现。

值得一提的是,小型MoE模型Qwen3-30B-A3B的激活参数仅为QwQ-32B的10%,却取得了更优的表现。甚至像Qwen3-4B这样的小模型也能媲美Qwen2.5-72B-Instruct的性能水平。这种高效的性能表现,使得Qwen3系列模型在实际应用中具有显著优势。

开源与应用方案

Qwen团队开源了两个MoE模型权重:Qwen3-235B-A22B(2350亿总参数,220亿激活参数)和Qwen3-30B-A3B(300亿总参数,30亿激活参数)。此外,六个Dense模型也已开源,包括Qwen3-32BQwen3-14BQwen3-8BQwen3-4BQwen3-1.7BQwen3-0.6B,均在Apache 2.0许可下发布。

核心亮点:思考模式的革新

Qwen 3模型支持两种思考模式,为用户提供了前所未有的灵活性:

  • • 思考模式:模型会逐步推理,深思熟虑后给出最终答案,适合复杂问题的解决。
  • • 非思考模式:提供快速、近乎即时的响应,适用于简单问题或对响应速度有较高要求的场景。

这种灵活性使用户能够根据具体任务控制模型的"思考预算",在响应质量和响应速度之间找到最佳平衡点。访问QwQ32.com/qwen3了解更多关于思考模式的详细信息。

多语言支持:全球化视野

Qwen 3模型支持119种语言和方言,涵盖印欧语系、汉藏语系、亚非语系、南岛语系等多个语系。这一广泛的多语言能力为全球用户提供了便利,开创了国际应用的新可能性。

增强的Agent能力

Qwen3优化了模型的Agent和代码能力,同时加强了对MCP的支持。Qwen3能够更好地思考并与环境交互,为构建智能应用提供了强大基础。

预训练与后训练:双重突破

在预训练方面,Qwen3的数据量达到了约36万亿个token,几乎是Qwen2.5的两倍。为构建这个庞大的数据集,团队不仅从网络收集数据,还利用Qwen2.5-VL从PDF文档提取信息,并用Qwen2.5改进内容质量。在QwQ32.com/qwen3,你可以了解到更多关于预训练过程的三个阶段:基础预训练、知识密集型数据预训练和长上下文扩展。

后训练方面,Qwen3实施了四阶段流程:长思维链冷启动、长思维链强化学习、思维模式融合和通用强化学习。这确保了模型能够同时具备思考推理和快速响应的能力。

开始使用Qwen3

使用Qwen 3非常简便,无论是通过Hugging Face transformers、SGLang、vLLM还是本地工具如Ollama。以下是一个基本示例:

from modelscope import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-30B-A3B"

# 加载tokenizer和模型
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

# 准备模型输入
prompt = "给我介绍一下大型语言模型。"
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True  # 在思考模式和非思考模式之间切换,默认为True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

# 生成文本
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()

# 解析思考内容
try:
    index = len(output_ids) - output_ids[::-1].index(151668)
except ValueError:
    index = 0

thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip("\n")
content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip("\n")

print("思考内容:", thinking_content)
print("回答内容:", content)

Qwen3还提供了高级用法指南,包括如何在多轮对话中动态切换思考模式,以及如何利用Qwen-Agent充分发挥Qwen3的Agent能力。

未来展望

Qwen 3代表了通往通用人工智能(AGI)和超级人工智能(ASI)旅程中的重要一步。通过扩大预训练和强化学习规模,Qwen团队实现了更高层次的智能。未来,团队计划从多个维度提升模型,包括优化模型架构、扩展数据规模、增加模型大小、延长上下文长度、拓宽模态范围,并利用环境反馈推进强化学习。

当我们从训练模型的时代过渡到训练Agent为中心的时代,Qwen3将继续引领创新,为用户的工作和生活带来有意义的进步。

如果你对Qwen3系列模型感兴趣,不妨现在就访问Qwen 3进行尝试,体验这一突破性技术带来的全新可能!

 

posted on 2025-04-29 07:37  sing1ee  阅读(514)  评论(0)    收藏  举报