随笔分类 - 大模型
摘要:DeepSeek-V3.2-Exp 是一个基于稀疏注意力机制(DSA,DeepSeek Sparse Attention)优化的长上下文处理模型,其核心创新在于高效地处理长序列输入,同时保持模型性能。 🧠 什么是 DSA(DeepSeek Sparse Attention)? DSA 是 Deep
阅读全文
摘要:深度学习编译器 TVM 在深度学习的训练和推理过程中,性能优化是一个永恒的主题。不同的硬件(CPU、GPU、NPU、FPGA 等)有不同的计算特性,如果每次都手写 CUDA 内核或 ARM 汇编,不仅耗时,而且难以维护。 这时,一个跨平台的深度学习编译器——Apache TVM (Tensor Vi
阅读全文
摘要:本文先讲清楚 NL2SQL 与 NL2DSL 的本质差异,再用一个从中文到 DSL、再到 SQL 的完整闭环示例,展示 LLM 是如何生成 DSL 的。 一、NL2SQL vs NL2DSL:核心差异 维度 NL2SQL(自然语言→SQL) NL2DSL(自然语言→领域专用语言,再编译到SQL/其他
阅读全文
摘要:Table 4: Levels of agent automation 表4:智能体自动化级别 Level 等级 Description 描述 Key characteristics 关键特征 Examples 示例 Level 0: Manual (no automation) 0级:手动(无自动
阅读全文
摘要:大型语言模型算法前沿:当前AI格局下的架构、方法与评估 1. 架构的基石:从Transformer到专业化专家 本节解构了驱动现代大型语言模型(LLM)的核心架构范式。我们将从基础的Transformer模型入手,分析其固有的局限性,然后系统地探索为应对这些挑战而涌现的创新解决方案,即专家混合模型(
阅读全文
摘要:摘要 本报告旨在全面深入地探讨大型语言模型(LLM)的前沿技术和发展趋势,并结合最新的国际AI前沿进展进行更新。报告涵盖了LLM的主流技术路线、数据集、预训练、微调、部署与优化,以及多模态模型和性能评估等多个关键方面。我们特别关注国际AI前沿的最新进展,兼顾通用模型和开源模型,并对多模态LLM和性能
阅读全文
摘要:DeepSpeed Chat:轻松、快速且经济地在所有规模上对 ChatGPT 类模型进行 RLHF 训练 要引用 DeepSpeed Chat,请引用我们的arxiv 报告: @article{yao2023dschat, title={{DeepSpeed-Chat: Easy, Fast an
阅读全文
摘要:https://github.com/NVIDIA/DALI DALI库的核心优势在于其GPU加速能力。传统的数据预处理过程大多在CPU上执行,包括数据的加载、解码、裁剪、调整大小等操作,这些操作往往是计算密集型的,且受限于CPU的计算能力。而DALI库通过将部分或全部数据预处理任务卸载到GPU上执
阅读全文
摘要:在大模型训练中,通信成本是影响训练效率的关键瓶颈之一。数据并行(Data Parallelism) 和 张量并行(Tensor Parallelism) 通过各自的策略来降低通信开销、提升效率。下面从它们的通信特点和优化方式来分析。 一、数据并行(Data Parallelism) 原理: 每个 G
阅读全文
摘要:一、问题背景 随着AIGC领域的兴起,各大厂商都在训练和推出自研的大模型结构,并结合业务进行落地和推广。在大模型分布式训练场景中,主流的主要是基于英伟达GPU进行训练(如A100),如何有效地压榨GPU的计算能力,提升训练效率,降低训练成本,是一个非常重要的实践优化问题。 1.1 直接目标 最直接地
阅读全文
摘要:【深度解析】谷歌A2A(Agent2Agent)协议:AI智能体协作的未来基石 📝 摘要:谷歌A2A(Agent2Agent)协议为AI智能体之间的开放协作与通信提供了标准化框架。本文系统梳理A2A协议的设计理念、核心机制、典型实现与应用场景,结合完整代码示例,深入剖析其在多智能体系统中的价值与未
阅读全文
摘要:OpenAI Codex Cli 在您的终端中运行的轻量级编码代理 npm i -g @openai/codex 快速入门 全局安装: npm install -g @openai/codex 接下来,将您的 OpenAI API 密钥设置为环境变量: export OPENAI_API_KEY="
阅读全文
摘要:截至2025年第一季度,国际AI研究呈现技术深化、行业融合加速、基础设施需求旺盛三大趋势。以下从学术突破、技术应用、硬件创新、行业挑战四个维度展开分析: 一、学术研究:模型能力与效率双重突破 知识图谱与大模型融合 蚂蚁集团在NeurIPS 2024提出的KGL(知识图谱语言),通过将知识图谱三元组结
阅读全文
摘要:多智能体系统 (MAS) 由多个人工智能 (AI) 智能体组成,它们共同代表用户或其他系统执行任务。 MAS 中的每个代理都具有各自的属性,但所有代理都会协同工作以实现所需的全局属性。1多 代理系统在完成可能涉及数百甚至数千个代理的大规模复杂任务方面很有价值。2 这一理念的核心是人工智能 (AI)
阅读全文
摘要:AI到AI通信:Gibberlink https://github.com/PennyroyalTea/gibberlink 在 ElevenLabs 伦敦黑客马拉松的一次开创性演示中,开发人员推出了 GibberLink,这是一种新颖的协议,可让人工智能语音助手使用针对机器而非人类优化的语言进行交
阅读全文
摘要:Transformer体系结构已经成为大型语言模型(llm)成功的主要组成部分。为了进一步改进llm,人们正在研发可能优于Transformer体系结构的新体系结构。其中一种方法是Mamba(一种状态空间模型)。 Mamba: Linear-Time Sequence Modeling with S
阅读全文
摘要:MCP全称是Model Context Protocol, 也就是”模型上下文协议”, 是Anthropic这家公司搞的一个AI应用协议。这个东西服务于AI应用(而不是AI模型),之所以强调这个,是因为很多人分不清楚大语言模型与大语言模型应用的差别。 那AI应用为什么需要MCP呢? 大部分大语言模型
阅读全文
摘要:大模型一体机行业内幕 DeepSeek大模型一体机特点:私有化部署、交付容易、价格低廉,适合内网IT改造和CIO们的创新选择,也是目前被疯抢的原因。 大模型一体机从功能上要分ABC三类:A类:主要是硬件就是机头+AI卡,组成的纯纯的AI硬件服务器。B类:在A类的技术上加上Deepseek模型和开发平
阅读全文
摘要:GPQA The following are 10 questions. Answer each of the multiple choice question. Only use the letter for the answer. What is the world's largest livi
阅读全文
摘要:基本数据并行(DP)在训练模型时,不会降低每个设备的内存占用。在当前配备 32GB 内存的 GPU 上,当模型参数超过 14 亿时,使用 DP 就会出现内存不足的情况。这是因为 DP 会在每个设备上复制完整的模型参数、梯度和优化器状态等模型状态数据。以一个参数规模较大的模型为例,每个设备都要存储完整
阅读全文

浙公网安备 33010602011771号