上一页 1 2 3 4 5 6 7 8 9 ··· 45 下一页
摘要: Transformer优化的宏观思路 内容 Transformer 优化宏观介绍:技术方向与核心策略 在回答Transformer模型的优化问题时,需从计算效率、内存管理、模型结构和硬件协同四个维度展开,结合前沿技术与工业实践,展示系统化的优化思维。 1. 计算复杂度优化:打破O(n²)瓶颈 核心问 阅读全文
posted @ 2025-04-27 20:49 Gold_stein 阅读(283) 评论(0) 推荐(0)
摘要: DeepSeek的MLA 详细学习 https://zhuanlan.zhihu.com/p/16730036197 大意 先压缩到低秩,然后再升维回来 Q是共享的,类似于MQA 最后参与计算的矩阵是Rope前后的矩阵拼接出来的,目的是保证矩阵可以被吸收,减少参与计算的kernel数量 阅读全文
posted @ 2025-04-27 19:37 Gold_stein 阅读(41) 评论(0) 推荐(0)
摘要: 从MHA到MQA和GQA 内容 注意力机制三剑客:MHA vs. GQA vs. MQA 终极对比与面试指南 在面试中回答注意力机制变体(MHA/GQA/MQA)时,需从设计思想、性能指标、应用场景三个维度构建系统性认知。以下为结构化回答策略: 1. 核心定义与结构对比 类型 全称 核心设计 参数量 阅读全文
posted @ 2025-04-27 17:08 Gold_stein 阅读(274) 评论(0) 推荐(0)
摘要: Pytorch 模型训练流程 内容 在面试中回答“PyTorch模型训练流程”时,需展示对全流程的系统性理解,同时结合代码示例和最佳实践。以下是结构化回答建议: PyTorch模型训练核心流程 1. 数据准备 数据集加载 使用torch.utils.data.Dataset和DataLoader管理 阅读全文
posted @ 2025-04-27 17:00 Gold_stein 阅读(314) 评论(0) 推荐(0)
摘要: 融合算子的意义 内容 以下是关于算子融合(Operator Fusion)意义的总结与补充,结合你的思路进一步扩展,适合用于博客的技术深度解析: 算子融合的核心意义 算子融合是深度学习框架和硬件加速中常见的优化手段,通过将多个独立计算操作(Kernel)合并为单个复合操作,显著提升计算效率和资源利用 阅读全文
posted @ 2025-04-27 16:54 Gold_stein 阅读(238) 评论(0) 推荐(0)
摘要: C++消除循环引用 内容 在 C++ 面试中,关于循环引用(Circular Reference)的问题通常聚焦于智能指针的使用场景和对象生命周期管理。以下是一个层次分明、直击要害的回答框架: 1. 明确问题本质 循环引用指两个或多个对象互相持有对方的强引用(如 shared_ptr),导致引用计数 阅读全文
posted @ 2025-04-27 16:21 Gold_stein 阅读(154) 评论(0) 推荐(0)
摘要: Tensor core的发展 关于Tensor Core的演进逻辑,可以从硬件架构创新、计算范式转变和产业需求驱动三个维度展开论述: 架构革新突破内存瓶颈 历代Tensor Core通过存储层级重构解决"内存墙"问题。Volta架构首次引入共享内存直接加载的WMMA指令,但存在bank confli 阅读全文
posted @ 2025-04-15 23:11 Gold_stein 阅读(159) 评论(0) 推荐(0)
摘要: 常见激活函数 激活函数 在 大语言模型( LLM ) 时代,激活函数的设计直接影响模型的表达能力、训练稳定性和计算效率。以下是当前主流的激活函数及其应用场景的总结,涵盖经典方法和最新趋势: 1. 核心激活函数 (1) GeLU( Gaussian Error Linear Unit ) 公式:\[\ 阅读全文
posted @ 2025-04-14 21:05 Gold_stein 阅读(647) 评论(0) 推荐(1)
摘要: 常见优化器 内容 一、基础梯度下降法 优化器 核心公式 特点 适用场景 SGD θ = θ - η·∇θ J(θ) 简单,但学习率固定,易陷入局部最优 小数据集、简单模型 Batch GD 同SGD,但使用全量数据计算梯度 梯度稳定,但计算开销大 小型数据集 Mini-Batch GD 同SGD,但 阅读全文
posted @ 2025-04-14 01:38 Gold_stein 阅读(136) 评论(0) 推荐(0)
摘要: BPE分词算法 Byte Pair Encoding (BPE) 分词算法详解 Byte Pair Encoding( BPE )是一种广泛应用于自然语言处理( NLP )的分词算法,尤其在大规模预训练模型( 如GPT、BERT )中表现优异。它的核心思想是通过合并高频字符对来构建子词( subwo 阅读全文
posted @ 2025-04-11 15:06 Gold_stein 阅读(1095) 评论(0) 推荐(1)
上一页 1 2 3 4 5 6 7 8 9 ··· 45 下一页