深度学习 - 随笔分类 - stardsd

2025Q4 AI行业季度报告

摘要：2025年第四季度人工智能行业季度报告一、行业整体发展态势 2025年第四季度，人工智能行业进入"收入兑现"与"算力竞赛"双轮驱动的关键阶段。尽管2025Q4全球AI整体市场规模的直接数据尚未完全披露，但从头部企业动态与区域数据可看出，行业已从"技术演示"转向"商业闭环"与"算力深化"并行发展模式阅读全文

posted @ 2025-12-05 16:11 stardsd 阅读(83) 评论(0) 推荐(0)

美国能源部：GEMINA项目

摘要：Program Description计划说明 Generating Electricity Managed by Intelligent Nuclear Assets (GEMINA) aims to develop digital twin technology for advanced nuc 阅读全文

posted @ 2025-12-05 15:33 stardsd 阅读(13) 评论(0) 推荐(0)

智能体上下文引擎（Agentic Context Engine，ACE）

摘要：人工智能代理会随着每次任务的完成而变得更加智能🧠 Agentic Context Engine 会从代理的成功和失败中学习。只需接入系统，即可见证代理的改进。如果你觉得这个仓库有用，请给它点个星⭐️！ 🤖 LLM快速入门将您最喜欢的编码代理（Cursor、Claude Code、Codex 阅读全文

posted @ 2025-11-05 15:06 stardsd 阅读(130) 评论(0) 推荐(0)

Spec-Driven Development（SDD）

摘要：概览 — 什么是 Spec（或 Spec-Driven）编程？简单说，Spec-Driven Programming / Spec-Driven Development（SDD）是把“规格（spec）”从传统的需求文档升级为可执行、机器可理解的首要输入，由 AI/代码生成器直接把规格转换成实现、阅读全文

posted @ 2025-10-28 15:30 stardsd 阅读(948) 评论(0) 推荐(0)

DSA：DeepSeek Sparse Attention

摘要：DeepSeek-V3.2-Exp 是一个基于稀疏注意力机制（DSA，DeepSeek Sparse Attention）优化的长上下文处理模型，其核心创新在于高效地处理长序列输入，同时保持模型性能。 🧠 什么是 DSA（DeepSeek Sparse Attention）？ DSA 是 Deep 阅读全文

posted @ 2025-09-30 10:59 stardsd 阅读(290) 评论(0) 推荐(0)

从TVM到Tilelang：深度学习的编译

摘要：深度学习编译器 TVM 在深度学习的训练和推理过程中，性能优化是一个永恒的主题。不同的硬件（CPU、GPU、NPU、FPGA 等）有不同的计算特性，如果每次都手写 CUDA 内核或 ARM 汇编，不仅耗时，而且难以维护。这时，一个跨平台的深度学习编译器——Apache TVM (Tensor Vi 阅读全文

posted @ 2025-09-30 09:24 stardsd 阅读(882) 评论(0) 推荐(1)

NL2DSL技术

摘要：本文先讲清楚 NL2SQL 与 NL2DSL 的本质差异，再用一个从中文到 DSL、再到 SQL 的完整闭环示例，展示 LLM 是如何生成 DSL 的。一、NL2SQL vs NL2DSL：核心差异维度 NL2SQL（自然语言→SQL） NL2DSL（自然语言→领域专用语言，再编译到SQL/其他阅读全文

posted @ 2025-08-28 15:22 stardsd 阅读(638) 评论(0) 推荐(0)

大型语言模型（LLM）技术综述

摘要：大型语言模型算法前沿：当前AI格局下的架构、方法与评估 1. 架构的基石：从Transformer到专业化专家本节解构了驱动现代大型语言模型（LLM）的核心架构范式。我们将从基础的Transformer模型入手，分析其固有的局限性，然后系统地探索为应对这些挑战而涌现的创新解决方案，即专家混合模型（阅读全文

posted @ 2025-07-01 16:03 stardsd 阅读(579) 评论(0) 推荐(0)

大型语言模型（LLM）技术报告

摘要：摘要本报告旨在全面深入地探讨大型语言模型（LLM）的前沿技术和发展趋势，并结合最新的国际AI前沿进展进行更新。报告涵盖了LLM的主流技术路线、数据集、预训练、微调、部署与优化，以及多模态模型和性能评估等多个关键方面。我们特别关注国际AI前沿的最新进展，兼顾通用模型和开源模型，并对多模态LLM和性能阅读全文

posted @ 2025-07-01 15:23 stardsd 阅读(871) 评论(0) 推荐(0)

Microsoft DeepSpeed

摘要：DeepSpeed Chat：轻松、快速且经济地在所有规模上对 ChatGPT 类模型进行 RLHF 训练要引用 DeepSpeed Chat，请引用我们的arxiv 报告： @article{yao2023dschat, title={{DeepSpeed-Chat: Easy, Fast an 阅读全文

posted @ 2025-05-08 16:02 stardsd 阅读(116) 评论(0) 推荐(0)

The NVIDIA Data Loading Library (DALI®)

摘要：https://github.com/NVIDIA/DALI DALI库的核心优势在于其GPU加速能力。传统的数据预处理过程大多在CPU上执行，包括数据的加载、解码、裁剪、调整大小等操作，这些操作往往是计算密集型的，且受限于CPU的计算能力。而DALI库通过将部分或全部数据预处理任务卸载到GPU上执阅读全文

posted @ 2025-05-08 15:38 stardsd 阅读(193) 评论(0) 推荐(0)

数据并行、张量并行及其实现

摘要：在大模型训练中，通信成本是影响训练效率的关键瓶颈之一。数据并行（Data Parallelism）和张量并行（Tensor Parallelism）通过各自的策略来降低通信开销、提升效率。下面从它们的通信特点和优化方式来分析。一、数据并行（Data Parallelism）原理：每个 G 阅读全文

posted @ 2025-05-08 15:29 stardsd 阅读(1125) 评论(0) 推荐(0)

MFU（Model FLOPs Utilization）与大模型的训练效率

摘要：一、问题背景随着AIGC领域的兴起，各大厂商都在训练和推出自研的大模型结构，并结合业务进行落地和推广。在大模型分布式训练场景中，主流的主要是基于英伟达GPU进行训练（如A100），如何有效地压榨GPU的计算能力，提升训练效率，降低训练成本，是一个非常重要的实践优化问题。 1.1 直接目标最直接地阅读全文

posted @ 2025-05-08 14:58 stardsd 阅读(2308) 评论(0) 推荐(0)

OpenAI Codex Cli

摘要：OpenAI Codex Cli 在您的终端中运行的轻量级编码代理 npm i -g @openai/codex 快速入门全局安装： npm install -g @openai/codex 接下来，将您的 OpenAI API 密钥设置为环境变量： export OPENAI_API_KEY=" 阅读全文

posted @ 2025-04-17 15:09 stardsd 阅读(1785) 评论(0) 推荐(0)

Mamba详细介绍和RNN、Transformer的架构可视化对比

摘要：Transformer体系结构已经成为大型语言模型(llm)成功的主要组成部分。为了进一步改进llm，人们正在研发可能优于Transformer体系结构的新体系结构。其中一种方法是Mamba（一种状态空间模型）。 Mamba: Linear-Time Sequence Modeling with S 阅读全文

posted @ 2025-02-27 14:35 stardsd 阅读(794) 评论(0) 推荐(0)

一些LLM评估测试用例（中英文版）

摘要：GPQA The following are 10 questions. Answer each of the multiple choice question. Only use the letter for the answer. What is the world's largest livi 阅读全文

posted @ 2025-02-21 09:42 stardsd 阅读(217) 评论(0) 推荐(0)

大模型训练中的数据并行（DP）、流水线并行（PP）和模型并行（MP）

摘要：基本数据并行（DP）在训练模型时，不会降低每个设备的内存占用。在当前配备 32GB 内存的 GPU 上，当模型参数超过 14 亿时，使用 DP 就会出现内存不足的情况。这是因为 DP 会在每个设备上复制完整的模型参数、梯度和优化器状态等模型状态数据。以一个参数规模较大的模型为例，每个设备都要存储完整阅读全文

posted @ 2025-02-10 15:26 stardsd 阅读(1105) 评论(0) 推荐(0)

多头潜在注意力（Multi-Head Latent Attention，MLA）

摘要：在 DeepSeek 模型中，多头潜在注意力（Multi-Head Latent Attention，MLA）是一种关键技术，旨在通过低秩压缩方法优化注意力机制的计算效率和内存使用。MLA 通过对键（Key）和值（Value）进行低秩联合压缩，显著减少了推理过程中的键值缓存（KV Cache），在阅读全文

posted @ 2025-02-05 16:51 stardsd 阅读(3482) 评论(0) 推荐(0)

多Token预测（Multi-Token Prediction, MTP）技术

摘要：看到DeepSeek-V3使用了多token预测（Multi-token Prediction, MTP）技术，该技术原始论文是由Meta 发在ICML 2024的一篇Poster。论文： [2404.19737] Better & Faster Large Language Models via 阅读全文

posted @ 2025-01-17 09:35 stardsd 阅读(2683) 评论(0) 推荐(0)

一种基于具身化、符号嵌入、因果学习和记忆原则的通用人工智能（AGI）框架

摘要：Generalist AI (AGI) framework based on the principles of embodiment, grounding, causality and memory 图：通用 AGI 系统的功能框图。概念模型由以下部分组成：（1）核心框架、体现，提供与世界接口和交阅读全文

posted @ 2025-01-14 17:10 stardsd 阅读(101) 评论(0) 推荐(0)

赏月斋

慎终如始宁静致远

随笔分类 - 深度学习

公告

赏月斋

慎终如始 宁静致远

随笔分类 - 深度学习

公告

慎终如始宁静致远