GLM技术复盘：21篇论文深度解读智谱模型家族

原文: https://mp.weixin.qq.com/s/2KMaZPnLernKGLq2aLN_dQ
欢迎关注公zh: AI-Frontiers

LLM往期文章推荐

从ResNet到mHC：DeepSeek重构残差连接，额外开销仅6.7%，附复现代码

在人工智能从通用语言建模向端到端智能体转型的历史进程中，智谱AI（Zhipu AI，于2026年上市后更名为Z.ai）凭借其深厚的学术积淀与工程落地能力，构建了以GLM（General Language Model）架构为核心的庞大技术体系。

从2022年双语稠密模型GLM-130B的破局，到2026年以智能体工程为导向的GLM-5家族，智谱AI不仅见证了中国大模型产业从追赶到并跑的转变，更在MoE架构优化、推理思维对齐、长时程智能体协作等前沿领域贡献了诸多标志性成果。

本文将按照发布时间倒序，详尽解析自2026年3月至2022年期间智谱AI发布的关键论文、模型及其背后的架构演进规律。官网发布信息见：① https://huggingface.co/zai-org/collections ；② https://github.com/orgs/zai-org/repositories ；③ https://huggingface.co/zai-org/models 。

TL, DR


发布时间	模型/技术名称	核心突破与架构特性
2026/3/16	GLM-5-Turbo	专为OpenClaw生态优化，Slime RL降幻觉，支持200K上下文，API 价更低
2026/3/10	GLM-OCR	层次化视觉注意力，高精度识别复杂文本，可转 LaTeX/Markdown
2026/2/11	GLM-5	7440亿MoE架构，集成DSA，异步Agent RL优化长时交互
2026/1/14	GLM-Image	AR+Diffusion混合架构，Semantic-VQ语义离散，中英文字符渲染精准
2025/12/22	GLM-4.7	358B MoE，交织/持久化思维，编程与推理SOTA
2025/12/16	GLM-TTS	两阶段解耦架构，GRPO强化学习，LoRA实现1小时音色克隆
2025/12/8	GLM-4.6V	多模态原生工具调用，视觉感知联动，支持文档/图像直接作为工具输入
2025/9/30	GLM-4.6	上下文扩至200K，优化库级代码能力，强化指令遵循
2025/8/11	GLM-4.5V	视觉感知增强，支持GUI智能体，精准物体定位与长视频分析
2025/8/8	GLM-4.5	3550亿MoE，ARC框架统一智能体、推理与编程
2025/7/1	GLM-4.1V-Thinking	9B参数，强化学习思考范式，多模态推理超越Qwen2.5-VL-72B
2025/3/4	CogView4	单流DiT架构，GLM-4-9B编码，高效文生图
2024/12/3	GLM-4-Voice	低码率语音分词，类人对话，支持中英双语与音色定制
2024/10/25	AutoGLM	GUI智能体，规执分离，自进化轨迹，自动化操作成功率高
2024/8/29	CogVLM2	基于Llama-3，支持8K上下文与视频理解
2024/8/6	CogVideoX	3D因果VAE，消除闪烁，高保真视频生成
2024/6/18	GLM-4	全方位对标GPT-4，大规模预训练，多阶段RLHF对齐
2023/12/14	CogAgent	高分辨率视觉，GUI坐标精准操作，OCR能力强
2023/10/1	ChatGLM3 系列	6B参数，支持工具调用，对话能力升级
2023/6/1	ChatGLM2 系列	上下文扩至32K，推理效率提升42%，低显存部署
2022/9/30	CodeGeeX	多语言代码生成，跨语言翻译，提出HumanEval-X基准
2022/8/1	GLM-130B	1300亿双语基座，INT4 量化，性能达GPT-3水平

一、2026年智能体工程的范式跨越

进入2026年，智谱AI的技术重心全面转向「Agent-Native」架构。模型已不再仅仅是文本生成工具，而是具备复杂系统工程处理能力、长时程稳定执行能力以及深度环境感知能力的智能中枢。

1 GLM-5-Turbo

发布时间: 2026年3月16日
核心定位：专为OpenClaw生态系统构建的端到端智能体工作流优化模型
技术创新：引入Slime强化学习训练框架，将幻觉率降低至34%以内，并实现任务分解与工具调用的原生对齐
发布网址：https://mp.weixin.qq.com/s/be2YN5Zi49BLRPJLEJm9uw
autoclaw：https://autoglm.zhipuai.cn/autoclaw/

GLM-5-Turbo在架构设计上针对高频、长历史的智能体任务进行了特化处理。该模型支持高达200,000个token的超长上下文窗口，确保在复杂的多步工作流中无需进行易出错的历史修剪或总结。同时，模型支持单次128,000个token的极大输出长度，这使其能够直接生成完整的代码库、长篇财务审计报告或高度结构化的数据集。在训练阶段，GLM-5-Turbo通过与OpenClaw环境深度集成，实现了对定时触发任务、持续运行任务以及错误自动重试机制的原生支持。

根据内部评估套件ZClawBench的数据，GLM-5-Turbo在处理包含环境配置、软件开发、信息检索及数据处理的端到端任务时，表现出极高的稳定性。其推理过程原生支持思维链展示，极大地方便了开发者对自动化智能体行为的审计与调试。在商业价值方面，其API价格较竞品降低了4至6倍，显著降低了高吞吐量智能体任务的部署门槛。

2 GLM-OCR

发布时间: 2026年3月10日
核心定位：解决复杂布局下高精度文字识别与语义提取的专项技术报告
技术创新：采用层次化视觉注意力机制，优化了对密集财务报表与学术论文中微小字符的捕捉能力
论文：https://arxiv.org/abs/2603.10910
论文标题: GLM-OCR Technical Report
github： https://github.com/zai-org/GLM-OCR
HuggingFace: https://huggingface.co/zai-org/GLM-OCR

一款面向复杂文档理解的多模态OCR模型，基于GLM-V编码器—解码器架构构建。引入Multi-Token Prediction（MTP）损失与稳定的全任务强化学习训策略，以提升训练效率、识别精度与泛化能力。模型集成了在大规模图文数据上预训练的CogViT视觉编码器、带高效token下采样的轻量跨模态连接器，以及GLM-0.5B语言解码器。结合基于PP-DocLayout-V3的「两阶段」流程——先做版面分析，再进行并行识别——GLM-OCR 能在多样化文档布局下提供稳健且高质量的 OCR 表现。

关键特性

业界领先的效果：在OmniDocBench V1.5上取得94.62 分，综合排名第一；并在公式识别、表格识别、信息抽取等主流文档理解基准上达到SOTA水平。
面向真实场景优化：针对实际业务需求进行设计与优化，在复杂表格、代码密集文档、印章等各类真实且高难版面场景中依然保持稳定表现。
高效推理：总参数量仅0.9B，支持通过vLLM、SGLang 与 Ollama 部署，显著降低推理时延与算力成本，适用于高并发服务与端侧部署。
上手简单：全面开源，并提供完整SDK与推理工具链，支持便捷安装、一行调用、以及与现有生产流程的顺滑集成。

3 GLM-5

发布时间: 2026年2月11日
核心定位：智谱AI新一代旗舰模型，旨在从「对话编码」向「Agentic Engineering」范式转型
技术创新：集成DeepSeek稀疏注意力（DSA）机制，并提出异步Agent强化学习算法以优化长时交互质量
论文：https://arxiv.org/abs/2602.15763
论文标题: GLM-5: from Vibe Coding to Agentic Engineering
github：https://github.com/zai-org/GLM-5
HuggingFace: https://huggingface.co/zai-org/GLM-5

GLM-5采用了极具规模的混合专家（MoE）架构，总参数量达到7440亿，其中单Token激活参数量为400亿。该架构通过引入DeepSeek稀疏注意力（DSA）技术，在保持超长上下文保真度的同时，显著降低了训练与推理的计算开销。在对齐技术上，GLM-5构建了一套全新的异步强化学习基础设施，通过解耦生成过程与训练过程，极大地提升了训练效率。此外，针对编程任务，GLM-5构建了大量真实的执行环境，使模型能够在多轮长周期任务中学习错误修正行为。

GLM-5在多项学术与工程基准测试中刷新了开源记录，并缩小了与GPT-5、Claude Opus 4.5等闭源模型的差距。在Vending Bench 2中，该模型模拟运行一年期自动售货机业务，最终账户余额达到$4432，位居开源模型首位，体现了极强的长期规划与资源管理能力。

4 GLM-Image

发布时间: 2026年1月14日
核心定位：首个开源、工业级离散自回归（Auto-regressive）图像生成模型，专注于高知识密度与高保真图像生成
技术创新：采用 AR+ Diffusion的混合架构；引入Semantic-VQ语义离散化Token方案；应用GRPO与Flow-GRPO的解耦强化学习后训练策略
blog：https://z.ai/blog/glm-image
blog标题: GLM-Image: Auto-regressive for Dense-knowledge and High-fidelity Image Generation
github：https://github.com/zai-org/GLM-Image
HuggingFace: https://huggingface.co/zai-org/GLM-Image

采用自回归 (9B) + 扩散 (7B)的解耦架构，将任务拆分为语义布局与细节填充。引入 Semantic-VQ 方案替代传统 VQVAE，使 AR 模块生成的低频 Token 语义更强，再由扩散解码器通过 Flow Matching 转化为高频细节。此外，集成 Glyph-ByT5 编码器，大幅强化了复杂中英文字符的渲染精度。

文字渲染与知识遵循能力卓越，中英文长文本准确率均突破95%，显著超越SD3.5等主流模型。它不仅能精准执行特定位置的绘字指令，还具备强大的多主体一致性编辑能力。支持最高2048px分辨率输出，实现了艺术审美与信息传递精准性的深度融合。

二、2025年推理思维与多模态的深度融合

2025年是智谱AI密集迭代GLM-4系列的年份，这一时期的技术核心在于引入「Thinking」模式，即赋予模型在生成答案前进行深度思维链推理的能力。

5 GLM-TTS

发布时间: 2025年12月16日
核心定位：一种专为效率、可控性和高保真语音生成设计的工业级自回归与扩散混合架构TTS系统
技术创新：引入了基于GRPO的多奖励强化学习框架；采用 Hybrid Phoneme-Text（音素-文本混合）输入模式；以及参数高效的LoRA个性化语音定制技术。
论文：https://arxiv.org/pdf/2512.14291
论文标题: GLM-TTS Technical Report
github：https://github.com/zai-org/GLM-TTS
HuggingFace: https://huggingface.co/zai-org/GLM-TTS

GLM-TTS 是一个基于大型语言模型的高质量文本到语音(TTS)合成系统，支持零样本语音克隆和流式推理。本系统采用两阶段架构：首先使用LLM生成语音token序列，然后使用Flow模型将token转换为高质量的音频波形。通过引入多奖励强化学习(Multi-Reward RL)框架，GLM-TTS能够生成更加富有表现力和情感色彩的语音，显著提升了传统TTS系统的表现力。

关键特性

零样本语音克隆：仅需3-10秒的提示音频即可克隆任意说话人声音
RL-增强的情感控制：通过多奖励强化学习框架，实现更自然的情感表达和韵律控制
流式推理：支持实时流式音频生成，适用于交互式应用
高质量合成：生成自然、富有表现力的语音，音质媲美商业系统
多语言支持：主要支持中文，同时支持英文混合文本
音素级建模：支持音素级别的文本到语音转换
灵活的推理方式：支持多种采样策略和推理模式

6 GLM-4.7

发布时间: 2025年12月22日
核心定位：专注于真实世界开发环境、终端自动化及复杂数学推理的强化版模型
技术创新：引入交织思维（Interleaved Thinking）、持久化思维（Preserved Thinking）以及轮次级思维控制
blog：https://z.ai/blog/glm-4.7
blog标题: GLM-4.7: Advancing the Coding Capability
github：https://github.com/zai-org/GLM-4.5
HuggingFace: https://huggingface.co/zai-org/GLM-4.7

GLM-4.7基于358B参数量的MoE架构，重点改进了任务完成的稳定性。通过「交织思维」机制，模型在每次响应和工具调用前都会进行内部推理，从而提高复杂指令的遵循质量。针对多轮编程对话，新引入的「持久化思维」能自动保留对话历史中的推理块，避免模型在后续轮次中重新推导，减少了信息的流失与逻辑不一致。此外，模型支持轮次级的思维开关控制，用户可根据任务难度选择关闭推理以降低延迟，或开启推理以提升精度。

GLM-4.7在多项编程与智能体评测中表现优异。在SWE-bench Verified中，其得分为73.8%，较前代GLM-4.6提升了5.8%。在交互式工具调用基准测试$$\tau^2-Bench$$中，它以87.4的高分刷新了开源SOTA记录，甚至超越了Claude Sonnet 4.5。

7 GLM-4.6V

发布时间: 2025年12月8日
核心定位：打通「视觉感知」与「可执行动作」边界的开源多模态大模型
技术创新：支持原生视觉功能调用，允许图像和文档页直接作为工具输入
blog：https://z.ai/blog/glm-4.6v
blog标题: GLM-4.6V: Open Source Multimodal Models with Native Tool Use
github：https://github.com/zai-org/GLM-V
HuggingFace: https://huggingface.co/zai-org/GLM-4.6V

GLM-4.6V系列包含106B的高性能版和9B的轻量Flash版。其核心架构将视觉编码器与128K的长上下文窗口对齐，具备处理长达150页复杂文档或一小时视频的内存能力。该模型集成了原生Function Calling，意味着它不仅能描述图像，还能通过视觉感知直接触发搜索、裁剪关键视觉信息或调用设计工具生成代码。

在前端代码复现任务中，用户只需上传设计稿截图，模型即可识别布局、组件及配色方案，并生成高保真的HTML/JS代码。此外，它能同时处理多家公司的财务报表，提取跨文档的核心指标并生成对比分析表，展现出极强的系统性逻辑思维。

8 GLM-4.6

发布时间: 2025年9月30日
核心定位：国内领先的编程大模型，强调在真实开发环境下的稳定性
技术创新：将MoE架构的上下文窗口从128K扩展至200K，并优化了多文件库级问答能力
技术文档： https://zhipu-ai.feishu.cn/wiki/Gv3swM0Yci7w7Zke9E0crhU7n7D
论文: https://arxiv.org/pdf/2508.06471
论文标题: GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models
github：https://github.com/zai-org/GLM-4.5
HuggingFace: https://huggingface.co/zai-org/GLM-4.6

GLM-4.6维持了355B总参数、32B激活参数的MoE结构，但通过在训练中加入更高比例的代码库数据，提升了对复杂项目结构的理解。模型支持与Claude Code等主流Agent框架的深度集成，其指令遵循能力得到了显著强化。

在内部编程测试套件CC-Bench中，GLM-4.6在面对Claude Sonnet 4时表现出极强的竞争力，人类评测者认为其在真实编程任务中的表现达到了Sonnet 4的48.6%。

9 GLM-4.5V

发布时间: 2025年8月11日
核心定位：集成强大推理能力的顶级开源VLM，支持复杂的图形界面智能体任务
技术创新：在高效的GLM-4.5-Air架构基础上增加了视觉感知系统，支持精准的物体定位
论文：https://arxiv.org/abs/2507.01006
论文标题: GLM-4.5V and GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning
github：https://github.com/zai-org/GLM-V/
HuggingFace: https://huggingface.co/zai-org/GLM-4.5V

GLM-4.5V通过训练视觉专家模块，实现了视觉特征与语言特征的深度融合。其架构支持读取电脑屏幕、识别图标并协助桌面自动化操作，非常适合作为GUI Agent的底座。

模型在解析研究报告、提取图表精确信息方面表现突出，能够根据手绘草图设计UI界面，甚至能分析长视频中的事件序列。

10 GLM-4.5

发布时间: 2025年8月8日
核心定位：开源混合专家（MoE）模型，通过ARC框架统一了智能体、推理与编程能力
技术创新：采用Muon优化器加速收敛，利用异步Agent强化学习管道处理长程任务
论文：https://arxiv.org/pdf/2508.06471
论文标题: GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models
github：https://github.com/zai-org/GLM-4.5
HuggingFace: https://huggingface.co/zai-org/GLM-4.5

GLM-4.5拥有3550亿总参数，每个Token激活320亿参数，采用了侧重深度而非宽度的设计策略（96个注意力头）。它引入了QK-Norm、GQA以及用于投机采样的MTP层。训练数据规模达到23万亿Tokens，其中包含7万亿代码与推理专项数据。训练过程中采用了阶段性长度扩展技术，最高支持128K上下文。

GLM-4.5在综合性基准测试中排名第三，仅次于顶级闭源模型。它在TAU-Bench（智能体测试）和AIME 24（数学竞赛测试）中表现尤为强劲。

11 GLM-4.1V-Thinking

发布时间: 2025年7月1日
核心定位：旨在探索视觉语言模型（VLM）推理上限的研究型模型
技术创新：引入基于可扩展强化学习的「思考范式」，显著提升多模态逻辑推演能力
论文：https://arxiv.org/abs/2507.01006
论文标题: GLM-4.5V and GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning
github：https://github.com/zai-org/GLM-V
HuggingFace: https://huggingface.co/zai-org/GLM-4.1V-9B-Thinking

该模型以AIMv2-Huge为视觉编码器，集成了3D卷积以支持高效的视频时空采样，而语言解码器则基于GLM-4-9B 。其独特的思维架构会在处理视觉指令时生成内部推理序列，并通过奖励系统（VLM Reward System）进行迭代优化。

尽管参数量仅为9B，GLM-4.1V-Thinking在STEM推理、GUI智能体操作和长文档理解等18项任务中，表现优于参数量大得多的Qwen2.5-VL-72B。

12 CogView4

发布时间: 2025年3月4日
核心定位：支持中英双语输入的下一代高性能文本生成图像模型
技术创新：采用单流DiT（Diffusion Transformer）架构，并将GLM-4-9B作为文本编码器
论文：https://arxiv.org/abs/2403.05121
论文标题: CogView3: Finer and Faster Text-to-Image Generation via Relay Diffusion
github1：https://github.com/zai-org/CogView4
github2: https://github.com/zai-org/CogView
HuggingFace: https://huggingface.co/zai-org/CogView4-6B

CogView4拥有60亿参数，其DiT架构专为复杂语义对齐与指令遵循而优化。它支持从512到2048像素的多种分辨率，并接受长达1024个Token的提示词。由于参数量更小，它在同等硬件上的运行效率远高于Flux.1-dev等12B规模的模型。

在评测复杂语义对齐的DPG-Bench中，CogView4-6B以85.13的得分位居前列。它在双目标生成、物体计数以及中文字符渲染方面具有显著优势。

三、2024年生态爆发与GLM-4技术报告发布

2024年是智谱AI生态全面铺开的一年。这一年，官方正式发布了GLM-4家族的完整技术细节，并开源了极具影响力的9B系列模型。

13 GLM-4-Voice

发布时间: 2024年12月3日
核心定位：具备类人语感与情感表达能力的实时端到端对话机器人
技术创新：采用超低比特率（175bps）单码本语音分词器（Tokenizer），帧率仅为12.5Hz
论文：https://arxiv.org/abs/2412.02612
论文标题: GLM-4-Voice: Towards Intelligent and Human-Like End-to-End Spoken Chatbot
github：https://github.com/zai-org/GLM-4-Voice
HuggingFace: https://huggingface.co/zai-org/glm-4-voice-9b

模型通过在预训练文本大模型GLM-4-9B的基础上，加入1万亿Tokens的语音-文本交织数据进行持续训练。它通过在编码器中嵌入向量量化瓶颈（VQ Bottleneck），实现了从文本模态向语音模态的高效知识迁移。

GLM-4-Voice支持中英双语实时交互，能够根据用户要求改变音色、语速甚至方言，在语音问答和闲聊质量上均达到行业顶尖水平。

14 AutoGLM

发布时间: 2024年10月25日
核心定位：针对GUI设计的自主基础智能体，旨在实现对智能手机和网页浏览器的自动化操作，替代人类完成复杂的数字化任务
技术创新：提出了 GUI 控制的「中间接口」设计，实现了规划与执行行为的分离；引入了自进化轨迹生产框架，通过自我博弈和强化学习不断优化操作策略。
论文：https://arxiv.org/pdf/2411.00820
论文标题: AutoGLM: Autonomous Foundation Agents for GUIs
github：https://github.com/zai-org/Open-AutoGLM
HuggingFace1: https://huggingface.co/zai-org/AutoGLM-Phone-9B-Multilingual
HuggingFace2: https://huggingface.co/zai-org/AutoGLM-Phone-9B

基于GLM-4V，采用「规执分离」的分层架构。通过中间接口连接多模态感知（识别元素）、高层规划（生成逻辑步骤）与动作接地（执行点击滑动）三大模块。这种设计避免了直接从像素预测动作，显著提升了模型在跨App和未知网页环境下的泛化能力与操作精准度。

性能领先，Web端在WebArena-Lite及OpenTable任务中成功率达55.2%和96.2%；Android端主流App任务成功率接近90%。模型不仅能理解复杂指令，还具备强大的自我修正能力，能根据屏幕实时反馈动态调整策略，确保长路径任务的最终完成。

15 CogVLM2

发布时间: 2024年8月29日
核心定位：基于Llama-3架构的高性能图像与视频理解大模型
技术创新：引入带时间戳的多帧输入机制，并构建了自动化时序对齐数据集
论文：https://arxiv.org/abs/2408.16500
论文标题: CogVLM2: Visual Language Models for Image and Video Understanding
github：https://github.com/zai-org/CogVLM2
github2: https://github.com/zai-org/CogVLM
github3: https://github.com/zai-org/VisualGLM-6B
HuggingFace: https://huggingface.co/zai-org/cogvlm2-llama3-chat-19B
Huggingface: https://huggingface.co/zai-org/visualglm-6b

模型基于Meta-Llama-3-8B构建，支持8K上下文和1344x1344的高分辨率输入。其视频理解版本CogVLM2-Video通过提取关键帧，能处理长达1分钟的视频序列。

CogVLM2在TextVQA和DocVQA等基准测试中表现优异，尤其是在识别视频中的特定时间节点任务上，其逻辑准确性极高。

16 CogVideoX

发布时间: 2024年8月6日
核心定位：致力于推动视频生成民主化的开源扩散转换器系列模型
技术创新：提出3D因果VAE与专家转换器架构，有效消除视频闪烁现象
论文：https://arxiv.org/pdf/2408.06072
论文标题: CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer
github：https://github.com/THUDM/CogVideo
HuggingFace: https://huggingface.co/collections/zai-org/cogvideo

CogVideoX通过3D因果卷积VAE将视频压缩至潜在空间，保持了运动的连贯性。它采用3D-RoPE独立嵌入空间与时间坐标，显著加快了长序列训练的收敛速度。

CogVideoX-5B能以16 fps生成10秒、分辨率768x1360的视频，在动作合理性、场景动态结构及语义一致性方面表现卓越。

17 GLM-4

发布时间: 2024年6月18日
核心定位：智谱AI当时最强大的基座模型，旨在全方位对标GPT-4
技术创新：采用了包括RMSNorm、SwiGLU、GQA在内的多项先进架构设计，并实施了10万亿Tokens的大规模预训练
论文：https://arxiv.org/pdf/2406.12793
论文标题: ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools
github：https://github.com/zai-org/GLM-4
HuggingFace: https://huggingface.co/zai-org/glm-4-9b

GLM-4移除了除QKV之外的所有偏置项，并扩大了FFN的参数规模。它在对齐上采用多阶段后训练过程，通过人类反馈强化学习（RLHF）实现了极高质量的指令遵循。其中GLM-4 All Tools版本被训练为能自主决定使用网页浏览器、Python解释器或生图模型来完成复杂任务。

GLM-4在MMLU、GSM8K、HumanEval等基础评测上达到GPT-4 96%以上的精度，且在中文数学、逻辑推理和长文本处理能力上，与GPT-4 Turbo不相上下。

四、2023年对话能力提升与视觉Agent探索

2023年是智谱AI将GLM-130B的基座能力转化为用户友好的对话模型（ChatGLM）以及专业智能体工具的关键时期。

18 CogAgent

发布时间: 2023年12月14日
核心定位：专注于图形用户界面（GUI）理解与自主导航的18B参数视觉模型
技术创新：支持1120x1120超高分辨率输入，专为处理移动端与PC端密集界面信息而设计
论文：https://arxiv.org/abs/2312.08914
论文标题: CogAgent: A Visual Language Model for GUI Agents
github：https://github.com/zai-org/CogAgent
HuggingFace: https://huggingface.co/zai-org/cogagent-9b-20241220

该模型拥有110亿视觉参数和70亿语言参数，通过精准的坐标回归能力，能直接在GUI截图中返回下一步操作的具体坐标。它具备强大的OCR能力，不仅能识别界面文字，还能理解其在交互中的逻辑功能。

CogAgent在Mind2Web和AITW等GUI导航评测中显著超越了仅使用HTML文本的LLM方法。它能处理跨网页、手机App及电脑程序的复杂任务规划与执行。

19 ChatGLM2/3 系列迭代

发布时间: 2023年6月（ChatGLM2），2023年10月（ChatGLM3）
核心定位：高效、轻量级的开源中英双语对话模型，可在消费级显卡上部署
技术创新：引入FlashAttention技术将上下文窗口扩展至32K，并优化了推理效率
论文1：https://arxiv.org/pdf/2406.12793v1
论文2：https://arxiv.org/pdf/2406.12793
论文3：https://arxiv.org/abs/2210.02414
论文4：https://arxiv.org/abs/2103.10360
论文标题: ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools
github1：https://github.com/zai-org/ChatGLM3
github2: https://github.com/zai-org/ChatGLM2-6B
github3: https://github.com/zai-org/GLM-130B
github4: https://github.com/zai-org/ChatGLM-6B
github5: https://github.com/THUDM/GLM
HuggingFace1: https://huggingface.co/zai-org/chatglm3-6b
HuggingFace2: https://huggingface.co/zai-org/chatglm3-6b-base
HuggingFace3: https://huggingface.co/zai-org/chatglm3-6b-32k
huggingFace4: https://huggingface.co/zai-org/chatglm2-6b
huggingFace5: https://huggingface.co/zai-org/chatglm-6b

ChatGLM3是智谱AI与清华大学KEG实验室联合发布的新一代对话预训练模型。在第二代ChatGLM 的基础之上，

更强大的基础模型： ChatGLM3-6B的基础模型ChatGLM3-6B-Base采用了更多样的训练数据、更充分的训练步数和更合理的训练策略。在语义、数学、推理、代码、知识等不同角度的数据集上测评显示，ChatGLM3-6B-Base具有在10B以下的基础模型中最强的性能。
更完整的功能支持： ChatGLM3-6B采用了全新设计的Prompt 格式，除正常的多轮对话外。同时原生支持工具调用（Function Call）、代码执行（Code Interpreter）和 Agent 任务等复杂场景。
更全面的开源序列：除了对话模型ChatGLM3-6B外，还开源了基础模型ChatGLM3-6B-Base、长文本对话模型 ChatGLM3-6B-32K。

ChatGLM2-6B是开源中英双语对话模型ChatGLM-6B的第二代版本，在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上，ChatGLM2-6B引入了如下新特性：

更强大的性能：基于ChatGLM初代模型的开发经验，全面升级了ChatGLM2-6B的基座模型。ChatGLM2-6B使用了GLM的混合目标函数，经过了1.4T中英标识符的预训练与人类偏好对齐训练，评测结果显示，相比于初代模型，ChatGLM2-6B在MMLU（+23%）、CEval（+33%）、GSM8K（+571%）、BBH（+60%）等数据集上的性能取得了大幅度的提升，在同尺寸开源模型中具有较强的竞争力。
更长的上下文：基于FlashAttention技术，将基座模型的上下文长度（Context Length）由ChatGLM-6B的2K扩展到了32K，并在对话阶段使用8K的上下文长度训练。对于更长的上下文，发布了ChatGLM2-6B-32K模型。LongBench的测评结果表明，在等量级的开源模型中，ChatGLM2-6B-32K有着较为明显的竞争优势。
更高效的推理：基于Multi-Query Attention技术，ChatGLM2-6B有更高效的推理速度和更低的显存占用：在官方的模型实现下，推理速度相比初代提升了42%，INT4量化下，6G显存支持的对话长度由1K提升到了8K。

ChatGLM-6B是一个开源的、支持中英双语的对话语言模型，基于General Language Model (GLM) 架构，具有62 亿参数。结合模型量化技术，用户可以在消费级的显卡上进行本地部署（INT4 量化级别下最低只需 6GB 显存）。 ChatGLM-6B使用了和ChatGPT相似的技术，针对中文问答和对话进行了优化。经过约1T标识符的中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等技术的加持，62亿参数的ChatGLM-6B 已经能生成相当符合人类偏好的回答。

GLM (General Language Model)是一种基于自回归空格填充（Autoregressive Blank Infilling）目标的预训练语言模型框架，旨在统一自然语言理解和文本生成任务。针对传统模型（如BERT 擅长理解但生成较弱，GPT擅长生成但理解受限）的局限，GLM通过引入灵活的注意力掩码（Flexible Attention Mask）和二维位置编码（2D Positional Encoding），使得单一模型能够根据任务需求在双向注意力与单向自回归模式间无缝切换。实验结果表明，GLM 在NLU、有条件生成和无条件生成等多项任务上均优于同等规模的BERT、RoBERTa及GPT模型，展现了极强的通用性和任务适应能力。

五、2022年双语基座与编程基础的奠定

2022年智谱AI完成了GLM架构的规模化验证，其发布的GLM-130B模型为后续所有产品提供了底座支持。

20 CodeGeeX

发布时间: 2022年9月30日
核心定位：预训练于23种编程语言、拥有130亿参数的多语言代码生成模型
技术创新：实现跨语言代码翻译，并提出多语言编程基准HumanEval-X
论文：https://arxiv.org/abs/2303.17568
论文标题: CodeGeeX: A Pre-Trained Model for Code Generation with Multilingual Benchmarking on HumanEval-X
github：https://github.com/zai-org/CodeGeeX
github2: https://github.com/zai-org/CodeGeeX2
github3: https://github.com/zai-org/CodeGeeX4
Huggingface: https://huggingface.co/zai-org/codegeex4-all-9b
官网: https://codegeex.cn/

CodeGeeX采用GPT架构，是一个拥有39层的Decoder-only Transformer模型。它在1536块昇腾910 AI处理器上完成了8500亿Tokens代码数据的训练。

在HumanEval-X评测中，CodeGeeX展现出远超同规模模型的代码生成与翻译能力，尤其在Python、C++、Java、Go等主流语言上效果卓越。

21 GLM-130B

发布时间: 2022年8月
核心定位：开源双语稠密大模型，旨在揭示超大规模模型预训练的工程奥秘
技术创新：提出混合生成任务预训练目标，并实现了无损INT4量化推理
blog: https://keg.cs.tsinghua.edu.cn/glm-130b/posts/glm-130b/
论文：https://arxiv.org/abs/2210.02414
论文标题: GLM-130B: An Open Bilingual Pre-trained Model
github：https://github.com/zai-org/GLM-130B

GLM-130B是一个包含1300亿参数的双语双向稠密模型，专门针对单台A100或V100服务器的推理效率进行了优化。其训练过程克服了损失尖峰（Loss Spikes）与散敛性挑战。

在HELM评测中，GLM-130B在多项关键指标上达到了GPT-3（davinci）的水平，在中文CLUE数据集上则显著超越了当时最大的中文模型ERNIE TITAN 3.0。

六、结语：通往系统性智能的路径

回顾智谱AI从2022年到2026年的发布轨迹，可以观察到技术演进的三个阶段：首先是基座对标期（2022-2024），通过GLM-130B和GLM-4系列证明了国产大模型在知识理解与双语对齐上的竞争力；其次是能力深化期（2025），通过引入「Thinking」模式和多模态专家系统，将大模型的能力推向复杂推理与视觉感知的极限；最后是智能体转型期（2026），以GLM-5系列为代表，将智能体所需的长期规划、工具调用的稳定性以及环境自适应性作为第一优先级。这一过程不仅是模型规模的增长，更是对大模型作为未来生产力操作系统这一角色的深度重塑。

posted @ 2026-03-23 16:56 AI-Frontiers 阅读(4380) 评论(1) 收藏举报

刷新页面返回顶部

AI-Frontiers 公#众#号：AI-Frontiers

分享AI前沿进展、底层原理和行业应用