摘要: 根据官方介绍,Qwen3 采用的是混合专家(MoE)架构,参数量仅为 DeepSeek-R1 的 1/3,也是国内首个“混合推理模型”,“快思考”与“慢思考”集成进同一个模型,对简单需求可“秒回”答案,对复杂问题可多步骤“深度思考”。 阅读全文
posted @ 2025-05-26 18:28 通义灵码 阅读(166) 评论(0) 推荐(0)