摘要: GPU 没有压栈指令,那参数传递在软件层面是谁负责的? 内容 在 GPU 架构中,由于缺乏硬件层面的压栈指令(如 CPU 的 push/pop),参数传递的职责完全由软件层承担,具体由 编译器 和 编程模型运行时库 协同完成。以下是详细机制: 1. 参数传递的核心挑战 GPU 的线程模型是 大规模并 阅读全文
posted @ 2025-04-27 22:31 Gold_stein 阅读(41) 评论(0) 推荐(0)
摘要: 举例说明RISC和CISC的区别 内容 精简指令集(RISC)与复杂指令集(CISC)的区别与实例分析 1. 核心定义 RISC(精简指令集): 设计哲学是“简单且高效”,指令集精简,指令长度固定,单周期执行,依赖编译器优化,硬件实现简单。 代表架构:ARM、RISC-V、MIPS。 CISC(复杂 阅读全文
posted @ 2025-04-27 22:12 Gold_stein 阅读(226) 评论(0) 推荐(0)
摘要: 时空局部性 内容 时空局部性(Temporal & Spatial Locality)深度解析 时空局部性是计算机体系结构设计的核心指导原则,直接影响缓存设计、内存访问优化、数据预取策略等关键领域。以下从原理到实践进行详细拆解: 1. 时间局部性(Temporal Locality) 定义:同一数据 阅读全文
posted @ 2025-04-27 22:06 Gold_stein 阅读(146) 评论(0) 推荐(0)
摘要: GPU与CPU统一内存寻址:技术原理与实现价值 内容 GPU与CPU统一内存寻址:技术原理与实现价值 1. 核心概念 统一内存寻址(Unified Memory) 是一种内存管理模型,允许CPU和GPU通过同一虚拟地址空间访问物理内存,开发者无需手动管理数据在主机(CPU)与设备(GPU)之间的传输 阅读全文
posted @ 2025-04-27 21:03 Gold_stein 阅读(666) 评论(0) 推荐(0)
摘要: 为什么 CPU 需要三层 Cache 而 GPU 只需要两层 内容 CPU与GPU缓存层级差异的深度解析 CPU和GPU缓存层级设计的差异源于二者不同的核心目标与使用场景,其本质是在延迟敏感性与吞吐量优化之间的权衡。以下从设计哲学、硬件架构、应用场景三个维度展开分析: 1. 设计目标差异 维度 CP 阅读全文
posted @ 2025-04-27 20:58 Gold_stein 阅读(233) 评论(0) 推荐(0)
摘要: Transformer优化的宏观思路 内容 Transformer 优化宏观介绍:技术方向与核心策略 在回答Transformer模型的优化问题时,需从计算效率、内存管理、模型结构和硬件协同四个维度展开,结合前沿技术与工业实践,展示系统化的优化思维。 1. 计算复杂度优化:打破O(n²)瓶颈 核心问 阅读全文
posted @ 2025-04-27 20:49 Gold_stein 阅读(283) 评论(0) 推荐(0)
摘要: DeepSeek的MLA 详细学习 https://zhuanlan.zhihu.com/p/16730036197 大意 先压缩到低秩,然后再升维回来 Q是共享的,类似于MQA 最后参与计算的矩阵是Rope前后的矩阵拼接出来的,目的是保证矩阵可以被吸收,减少参与计算的kernel数量 阅读全文
posted @ 2025-04-27 19:37 Gold_stein 阅读(41) 评论(0) 推荐(0)
摘要: 从MHA到MQA和GQA 内容 注意力机制三剑客:MHA vs. GQA vs. MQA 终极对比与面试指南 在面试中回答注意力机制变体(MHA/GQA/MQA)时,需从设计思想、性能指标、应用场景三个维度构建系统性认知。以下为结构化回答策略: 1. 核心定义与结构对比 类型 全称 核心设计 参数量 阅读全文
posted @ 2025-04-27 17:08 Gold_stein 阅读(274) 评论(0) 推荐(0)
摘要: Pytorch 模型训练流程 内容 在面试中回答“PyTorch模型训练流程”时,需展示对全流程的系统性理解,同时结合代码示例和最佳实践。以下是结构化回答建议: PyTorch模型训练核心流程 1. 数据准备 数据集加载 使用torch.utils.data.Dataset和DataLoader管理 阅读全文
posted @ 2025-04-27 17:00 Gold_stein 阅读(315) 评论(0) 推荐(0)
摘要: 融合算子的意义 内容 以下是关于算子融合(Operator Fusion)意义的总结与补充,结合你的思路进一步扩展,适合用于博客的技术深度解析: 算子融合的核心意义 算子融合是深度学习框架和硬件加速中常见的优化手段,通过将多个独立计算操作(Kernel)合并为单个复合操作,显著提升计算效率和资源利用 阅读全文
posted @ 2025-04-27 16:54 Gold_stein 阅读(238) 评论(0) 推荐(0)
摘要: C++消除循环引用 内容 在 C++ 面试中,关于循环引用(Circular Reference)的问题通常聚焦于智能指针的使用场景和对象生命周期管理。以下是一个层次分明、直击要害的回答框架: 1. 明确问题本质 循环引用指两个或多个对象互相持有对方的强引用(如 shared_ptr),导致引用计数 阅读全文
posted @ 2025-04-27 16:21 Gold_stein 阅读(154) 评论(0) 推荐(0)