Fork me on GitHub

随笔分类 -  深度学习

摘要:2025年第四季度人工智能行业季度报告 一、行业整体发展态势 2025年第四季度,人工智能行业进入"收入兑现"与"算力竞赛"双轮驱动的关键阶段。尽管2025Q4全球AI整体市场规模的直接数据尚未完全披露,但从头部企业动态与区域数据可看出,行业已从"技术演示"转向"商业闭环"与"算力深化"并行发展模式 阅读全文
posted @ 2025-12-05 16:11 stardsd 阅读(83) 评论(0) 推荐(0)
摘要:Program Description计划说明 Generating Electricity Managed by Intelligent Nuclear Assets (GEMINA) aims to develop digital twin technology for advanced nuc 阅读全文
posted @ 2025-12-05 15:33 stardsd 阅读(13) 评论(0) 推荐(0)
摘要:人工智能代理会随着每次任务的完成而变得更加智能🧠 Agentic Context Engine 会从代理的成功和失败中学习。只需接入系统,即可见证代理的改进。 如果你觉得这个仓库有用,请给它点个星⭐️! 🤖 LLM快速入门 将您最喜欢的编码代理(Cursor、Claude Code、Codex 阅读全文
posted @ 2025-11-05 15:06 stardsd 阅读(130) 评论(0) 推荐(0)
摘要:概览 — 什么是 Spec(或 Spec-Driven)编程? 简单说,Spec-Driven Programming / Spec-Driven Development(SDD) 是把“规格(spec)”从传统的需求文档升级为可执行、机器可理解的首要输入,由 AI/代码生成器直接把规格转换成实现、 阅读全文
posted @ 2025-10-28 15:30 stardsd 阅读(948) 评论(0) 推荐(0)
摘要:DeepSeek-V3.2-Exp 是一个基于稀疏注意力机制(DSA,DeepSeek Sparse Attention)优化的长上下文处理模型,其核心创新在于高效地处理长序列输入,同时保持模型性能。 🧠 什么是 DSA(DeepSeek Sparse Attention)? DSA 是 Deep 阅读全文
posted @ 2025-09-30 10:59 stardsd 阅读(290) 评论(0) 推荐(0)
摘要:深度学习编译器 TVM 在深度学习的训练和推理过程中,性能优化是一个永恒的主题。不同的硬件(CPU、GPU、NPU、FPGA 等)有不同的计算特性,如果每次都手写 CUDA 内核或 ARM 汇编,不仅耗时,而且难以维护。 这时,一个跨平台的深度学习编译器——Apache TVM (Tensor Vi 阅读全文
posted @ 2025-09-30 09:24 stardsd 阅读(882) 评论(0) 推荐(1)
摘要:本文先讲清楚 NL2SQL 与 NL2DSL 的本质差异,再用一个从中文到 DSL、再到 SQL 的完整闭环示例,展示 LLM 是如何生成 DSL 的。 一、NL2SQL vs NL2DSL:核心差异 维度 NL2SQL(自然语言→SQL) NL2DSL(自然语言→领域专用语言,再编译到SQL/其他 阅读全文
posted @ 2025-08-28 15:22 stardsd 阅读(638) 评论(0) 推荐(0)
摘要:大型语言模型算法前沿:当前AI格局下的架构、方法与评估 1. 架构的基石:从Transformer到专业化专家 本节解构了驱动现代大型语言模型(LLM)的核心架构范式。我们将从基础的Transformer模型入手,分析其固有的局限性,然后系统地探索为应对这些挑战而涌现的创新解决方案,即专家混合模型( 阅读全文
posted @ 2025-07-01 16:03 stardsd 阅读(579) 评论(0) 推荐(0)
摘要:摘要 本报告旨在全面深入地探讨大型语言模型(LLM)的前沿技术和发展趋势,并结合最新的国际AI前沿进展进行更新。报告涵盖了LLM的主流技术路线、数据集、预训练、微调、部署与优化,以及多模态模型和性能评估等多个关键方面。我们特别关注国际AI前沿的最新进展,兼顾通用模型和开源模型,并对多模态LLM和性能 阅读全文
posted @ 2025-07-01 15:23 stardsd 阅读(871) 评论(0) 推荐(0)
摘要:DeepSpeed Chat:轻松、快速且经济地在所有规模上对 ChatGPT 类模型进行 RLHF 训练 要引用 DeepSpeed Chat,请引用我们的arxiv 报告: @article{yao2023dschat, title={{DeepSpeed-Chat: Easy, Fast an 阅读全文
posted @ 2025-05-08 16:02 stardsd 阅读(116) 评论(0) 推荐(0)
摘要:https://github.com/NVIDIA/DALI DALI库的核心优势在于其GPU加速能力。传统的数据预处理过程大多在CPU上执行,包括数据的加载、解码、裁剪、调整大小等操作,这些操作往往是计算密集型的,且受限于CPU的计算能力。而DALI库通过将部分或全部数据预处理任务卸载到GPU上执 阅读全文
posted @ 2025-05-08 15:38 stardsd 阅读(193) 评论(0) 推荐(0)
摘要:在大模型训练中,通信成本是影响训练效率的关键瓶颈之一。数据并行(Data Parallelism) 和 张量并行(Tensor Parallelism) 通过各自的策略来降低通信开销、提升效率。下面从它们的通信特点和优化方式来分析。 一、数据并行(Data Parallelism) 原理: 每个 G 阅读全文
posted @ 2025-05-08 15:29 stardsd 阅读(1125) 评论(0) 推荐(0)
摘要:一、问题背景 随着AIGC领域的兴起,各大厂商都在训练和推出自研的大模型结构,并结合业务进行落地和推广。在大模型分布式训练场景中,主流的主要是基于英伟达GPU进行训练(如A100),如何有效地压榨GPU的计算能力,提升训练效率,降低训练成本,是一个非常重要的实践优化问题。 1.1 直接目标 最直接地 阅读全文
posted @ 2025-05-08 14:58 stardsd 阅读(2308) 评论(0) 推荐(0)
摘要:OpenAI Codex Cli 在您的终端中运行的轻量级编码代理 npm i -g @openai/codex 快速入门 全局安装: npm install -g @openai/codex 接下来,将您的 OpenAI API 密钥设置为环境变量: export OPENAI_API_KEY=" 阅读全文
posted @ 2025-04-17 15:09 stardsd 阅读(1785) 评论(0) 推荐(0)
摘要:Transformer体系结构已经成为大型语言模型(llm)成功的主要组成部分。为了进一步改进llm,人们正在研发可能优于Transformer体系结构的新体系结构。其中一种方法是Mamba(一种状态空间模型)。 Mamba: Linear-Time Sequence Modeling with S 阅读全文
posted @ 2025-02-27 14:35 stardsd 阅读(794) 评论(0) 推荐(0)
摘要:GPQA The following are 10 questions. Answer each of the multiple choice question. Only use the letter for the answer. What is the world's largest livi 阅读全文
posted @ 2025-02-21 09:42 stardsd 阅读(217) 评论(0) 推荐(0)
摘要:基本数据并行(DP)在训练模型时,不会降低每个设备的内存占用。在当前配备 32GB 内存的 GPU 上,当模型参数超过 14 亿时,使用 DP 就会出现内存不足的情况。这是因为 DP 会在每个设备上复制完整的模型参数、梯度和优化器状态等模型状态数据。以一个参数规模较大的模型为例,每个设备都要存储完整 阅读全文
posted @ 2025-02-10 15:26 stardsd 阅读(1105) 评论(0) 推荐(0)
摘要:在 DeepSeek 模型中,多头潜在注意力(Multi-Head Latent Attention,MLA) 是一种关键技术,旨在通过低秩压缩方法优化注意力机制的计算效率和内存使用。MLA 通过对键(Key)和值(Value)进行低秩联合压缩,显著减少了推理过程中的键值缓存(KV Cache),在 阅读全文
posted @ 2025-02-05 16:51 stardsd 阅读(3482) 评论(0) 推荐(0)
摘要:看到DeepSeek-V3使用了多token预测(Multi-token Prediction, MTP)技术,该技术原始论文是由Meta 发在ICML 2024的一篇Poster。 论文: [2404.19737] Better & Faster Large Language Models via 阅读全文
posted @ 2025-01-17 09:35 stardsd 阅读(2683) 评论(0) 推荐(0)
摘要:Generalist AI (AGI) framework based on the principles of embodiment, grounding, causality and memory 图:通用 AGI 系统的功能框图。概念模型由以下部分组成:(1)核心框架、体现,提供与世界接口和交 阅读全文
posted @ 2025-01-14 17:10 stardsd 阅读(101) 评论(0) 推荐(0)