摘要:        
Transformer优化的宏观思路 内容 Transformer 优化宏观介绍:技术方向与核心策略 在回答Transformer模型的优化问题时,需从计算效率、内存管理、模型结构和硬件协同四个维度展开,结合前沿技术与工业实践,展示系统化的优化思维。 1. 计算复杂度优化:打破O(n²)瓶颈 核心问    阅读全文
posted @ 2025-04-27 20:49
Gold_stein
阅读(283)
评论(0)
推荐(0)
        
            
        
        
摘要:        
DeepSeek的MLA 详细学习 https://zhuanlan.zhihu.com/p/16730036197 大意 先压缩到低秩,然后再升维回来 Q是共享的,类似于MQA 最后参与计算的矩阵是Rope前后的矩阵拼接出来的,目的是保证矩阵可以被吸收,减少参与计算的kernel数量    阅读全文
posted @ 2025-04-27 19:37
Gold_stein
阅读(41)
评论(0)
推荐(0)
        
            
        
        
摘要:        
从MHA到MQA和GQA 内容 注意力机制三剑客:MHA vs. GQA vs. MQA 终极对比与面试指南 在面试中回答注意力机制变体(MHA/GQA/MQA)时,需从设计思想、性能指标、应用场景三个维度构建系统性认知。以下为结构化回答策略: 1. 核心定义与结构对比 类型 全称 核心设计 参数量    阅读全文
posted @ 2025-04-27 17:08
Gold_stein
阅读(274)
评论(0)
推荐(0)
        
            
        
        
摘要:        
Pytorch 模型训练流程 内容 在面试中回答“PyTorch模型训练流程”时,需展示对全流程的系统性理解,同时结合代码示例和最佳实践。以下是结构化回答建议: PyTorch模型训练核心流程 1. 数据准备 数据集加载 使用torch.utils.data.Dataset和DataLoader管理    阅读全文
posted @ 2025-04-27 17:00
Gold_stein
阅读(314)
评论(0)
推荐(0)
        
            
        
        
摘要:        
融合算子的意义 内容 以下是关于算子融合(Operator Fusion)意义的总结与补充,结合你的思路进一步扩展,适合用于博客的技术深度解析: 算子融合的核心意义 算子融合是深度学习框架和硬件加速中常见的优化手段,通过将多个独立计算操作(Kernel)合并为单个复合操作,显著提升计算效率和资源利用    阅读全文
posted @ 2025-04-27 16:54
Gold_stein
阅读(238)
评论(0)
推荐(0)
        
            
        
        
摘要:        
C++消除循环引用 内容 在 C++ 面试中,关于循环引用(Circular Reference)的问题通常聚焦于智能指针的使用场景和对象生命周期管理。以下是一个层次分明、直击要害的回答框架: 1. 明确问题本质 循环引用指两个或多个对象互相持有对方的强引用(如 shared_ptr),导致引用计数    阅读全文
posted @ 2025-04-27 16:21
Gold_stein
阅读(153)
评论(0)
推荐(0)
        

 
         浙公网安备 33010602011771号
浙公网安备 33010602011771号