Gold_stein - 博客园

2025年4月27日

摘要： Transformer优化的宏观思路内容 Transformer 优化宏观介绍：技术方向与核心策略在回答Transformer模型的优化问题时，需从计算效率、内存管理、模型结构和硬件协同四个维度展开，结合前沿技术与工业实践，展示系统化的优化思维。 1. 计算复杂度优化：打破O(n²)瓶颈核心问阅读全文

posted @ 2025-04-27 20:49 Gold_stein 阅读(375) 评论(0) 推荐(0)

面试题——DeepSeek的MLA

摘要： DeepSeek的MLA 详细学习 https://zhuanlan.zhihu.com/p/16730036197 大意先压缩到低秩，然后再升维回来 Q是共享的，类似于MQA 最后参与计算的矩阵是Rope前后的矩阵拼接出来的，目的是保证矩阵可以被吸收，减少参与计算的kernel数量阅读全文

posted @ 2025-04-27 19:37 Gold_stein 阅读(53) 评论(0) 推荐(0)

面试题：从MHA到MQA和GQA

摘要：从MHA到MQA和GQA 内容注意力机制三剑客：MHA vs. GQA vs. MQA 终极对比与面试指南在面试中回答注意力机制变体（MHA/GQA/MQA）时，需从设计思想、性能指标、应用场景三个维度构建系统性认知。以下为结构化回答策略： 1. 核心定义与结构对比类型全称核心设计参数量阅读全文

posted @ 2025-04-27 17:08 Gold_stein 阅读(311) 评论(0) 推荐(0)

面试题——Pytorch训练模型流程

摘要： Pytorch 模型训练流程内容在面试中回答“PyTorch模型训练流程”时，需展示对全流程的系统性理解，同时结合代码示例和最佳实践。以下是结构化回答建议： PyTorch模型训练核心流程 1. 数据准备数据集加载使用torch.utils.data.Dataset和DataLoader管理阅读全文

posted @ 2025-04-27 17:00 Gold_stein 阅读(413) 评论(0) 推荐(0)

面试题——融合算子的意义是什么？

摘要：融合算子的意义内容以下是关于算子融合（Operator Fusion）意义的总结与补充，结合你的思路进一步扩展，适合用于博客的技术深度解析：算子融合的核心意义算子融合是深度学习框架和硬件加速中常见的优化手段，通过将多个独立计算操作（Kernel）合并为单个复合操作，显著提升计算效率和资源利用阅读全文

posted @ 2025-04-27 16:54 Gold_stein 阅读(304) 评论(0) 推荐(0)

面试题——C++解决循环引用的手段

摘要： C++消除循环引用内容在 C++ 面试中，关于循环引用（Circular Reference）的问题通常聚焦于智能指针的使用场景和对象生命周期管理。以下是一个层次分明、直击要害的回答框架： 1. 明确问题本质循环引用指两个或多个对象互相持有对方的强引用（如 shared_ptr），导致引用计数阅读全文

posted @ 2025-04-27 16:21 Gold_stein 阅读(214) 评论(0) 推荐(0)

2025年4月15日

面试题：Tensor core的发展

摘要： Tensor core的发展关于Tensor Core的演进逻辑，可以从硬件架构创新、计算范式转变和产业需求驱动三个维度展开论述：架构革新突破内存瓶颈历代Tensor Core通过存储层级重构解决"内存墙"问题。Volta架构首次引入共享内存直接加载的WMMA指令，但存在bank confli 阅读全文

posted @ 2025-04-15 23:11 Gold_stein 阅读(177) 评论(0) 推荐(0)

2025年4月14日

深度学习——常见激活函数

摘要：常见激活函数激活函数在大语言模型（ LLM ）时代，激活函数的设计直接影响模型的表达能力、训练稳定性和计算效率。以下是当前主流的激活函数及其应用场景的总结，涵盖经典方法和最新趋势： 1. 核心激活函数 (1) GeLU（ Gaussian Error Linear Unit ）公式：\[\ 阅读全文

posted @ 2025-04-14 21:05 Gold_stein 阅读(855) 评论(0) 推荐(1)

深度学习——常见优化器

摘要：常见优化器内容一、基础梯度下降法优化器核心公式特点适用场景 SGD θ = θ - η·∇θ J(θ) 简单，但学习率固定，易陷入局部最优小数据集、简单模型 Batch GD 同SGD，但使用全量数据计算梯度梯度稳定，但计算开销大小型数据集 Mini-Batch GD 同SGD，但阅读全文

posted @ 2025-04-14 01:38 Gold_stein 阅读(261) 评论(0) 推荐(0)

2025年4月11日

深度学习——BPE分词算法

摘要： BPE分词算法 Byte Pair Encoding (BPE) 分词算法详解 Byte Pair Encoding（ BPE ）是一种广泛应用于自然语言处理（ NLP ）的分词算法，尤其在大规模预训练模型（如GPT、BERT ）中表现优异。它的核心思想是通过合并高频字符对来构建子词（ subwo 阅读全文

posted @ 2025-04-11 15:06 Gold_stein 阅读(1391) 评论(0) 推荐(1)

公告