Qwen3：思深行速，AI大模型的新境界

Qwen 3 最新上线，更新了全新的qwen3系列模型。这一系列模型在性能与效率上都实现了质的飞跃，成为AI领域的又一重要里程碑。

Qwen3：突破性能与效率的平衡点

今天，我们很高兴向大家介绍Qwen系列大型语言模型的最新成员——Qwen3。访问QwQ32.com/qwen3可以了解更多详情。旗舰模型Qwen3-235B-A22B在代码、数学和通用能力等基准测试中，与DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro等顶级模型相比，展现出极具竞争力的表现。

值得一提的是，小型MoE模型Qwen3-30B-A3B的激活参数仅为QwQ-32B的10%，却取得了更优的表现。甚至像Qwen3-4B这样的小模型也能媲美Qwen2.5-72B-Instruct的性能水平。这种高效的性能表现，使得Qwen3系列模型在实际应用中具有显著优势。

开源与应用方案

Qwen团队开源了两个MoE模型权重：Qwen3-235B-A22B（2350亿总参数，220亿激活参数）和Qwen3-30B-A3B（300亿总参数，30亿激活参数）。此外，六个Dense模型也已开源，包括Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B和Qwen3-0.6B，均在Apache 2.0许可下发布。

核心亮点：思考模式的革新

Qwen 3模型支持两种思考模式，为用户提供了前所未有的灵活性：

• 思考模式：模型会逐步推理，深思熟虑后给出最终答案，适合复杂问题的解决。
• 非思考模式：提供快速、近乎即时的响应，适用于简单问题或对响应速度有较高要求的场景。

这种灵活性使用户能够根据具体任务控制模型的"思考预算"，在响应质量和响应速度之间找到最佳平衡点。访问QwQ32.com/qwen3了解更多关于思考模式的详细信息。

多语言支持：全球化视野

Qwen 3模型支持119种语言和方言，涵盖印欧语系、汉藏语系、亚非语系、南岛语系等多个语系。这一广泛的多语言能力为全球用户提供了便利，开创了国际应用的新可能性。

增强的Agent能力

Qwen3优化了模型的Agent和代码能力，同时加强了对MCP的支持。Qwen3能够更好地思考并与环境交互，为构建智能应用提供了强大基础。

预训练与后训练：双重突破

在预训练方面，Qwen3的数据量达到了约36万亿个token，几乎是Qwen2.5的两倍。为构建这个庞大的数据集，团队不仅从网络收集数据，还利用Qwen2.5-VL从PDF文档提取信息，并用Qwen2.5改进内容质量。在QwQ32.com/qwen3，你可以了解到更多关于预训练过程的三个阶段：基础预训练、知识密集型数据预训练和长上下文扩展。

后训练方面，Qwen3实施了四阶段流程：长思维链冷启动、长思维链强化学习、思维模式融合和通用强化学习。这确保了模型能够同时具备思考推理和快速响应的能力。

开始使用Qwen3

使用Qwen 3非常简便，无论是通过Hugging Face transformers、SGLang、vLLM还是本地工具如Ollama。以下是一个基本示例：

from modelscope import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-30B-A3B"

# 加载tokenizer和模型
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

# 准备模型输入
prompt = "给我介绍一下大型语言模型。"
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True  # 在思考模式和非思考模式之间切换，默认为True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

# 生成文本
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()

# 解析思考内容
try:
    index = len(output_ids) - output_ids[::-1].index(151668)
except ValueError:
    index = 0

thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip("\n")
content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip("\n")

print("思考内容:", thinking_content)
print("回答内容:", content)

Qwen3还提供了高级用法指南，包括如何在多轮对话中动态切换思考模式，以及如何利用Qwen-Agent充分发挥Qwen3的Agent能力。

未来展望

Qwen 3代表了通往通用人工智能(AGI)和超级人工智能(ASI)旅程中的重要一步。通过扩大预训练和强化学习规模，Qwen团队实现了更高层次的智能。未来，团队计划从多个维度提升模型，包括优化模型架构、扩展数据规模、增加模型大小、延长上下文长度、拓宽模态范围，并利用环境反馈推进强化学习。

当我们从训练模型的时代过渡到训练Agent为中心的时代，Qwen3将继续引领创新，为用户的工作和生活带来有意义的进步。

如果你对Qwen3系列模型感兴趣，不妨现在就访问Qwen 3进行尝试，体验这一突破性技术带来的全新可能！

posted on 2025-04-29 07:37 见路非道阅读(556) 评论(0) 收藏举报

刷新页面返回顶部

见路不走