2025 年 5月 26 日随笔档案 - 通义灵码

摘要：根据官方介绍，Qwen3 采用的是混合专家（MoE）架构，参数量仅为 DeepSeek-R1 的 1/3，也是国内首个“混合推理模型”，“快思考”与“慢思考”集成进同一个模型，对简单需求可“秒回”答案，对复杂问题可多步骤“深度思考”。阅读全文

posted @ 2025-05-26 18:28 通义灵码阅读(166) 评论(0) 推荐(0)

tongyilingma