摘要: 利用NsightSystem分析动转静性能 前置知识 NsightSystem 是一个集终端 CUDA Profile 日志生成和 前端可视化 timeline 分析的强大工具。安装 nsys 需要分别下载适合 Unix 的 Installer 和 Mac/Windows 的可视化终端。 背景 在部 阅读全文
posted @ 2025-02-07 18:36 Gold_stein 阅读(43) 评论(0) 推荐(0) 编辑
摘要: Paddle执行流程与python的对应关系 简单对应关系如下: 组网代码 -> Python source Program -> AST Instruction -> Bytecode 执行器 -> ceval 解释器 loop SOT -> tier 2 CINN -> tier 2 execu 阅读全文
posted @ 2025-02-07 17:25 Gold_stein 阅读(4) 评论(0) 推荐(0) 编辑
摘要: vector的push_back v.s. emplace_back 正文 在 C++ 的 std::vector 中,emplace_back 和 push_back 都用于向容器末尾添加元素,但它们的实现方式和性能特点有明显差异。以下是两者的核心区别: 1. 参数传递与构造方式 方法 参数类型 阅读全文
posted @ 2025-02-07 12:19 Gold_stein 阅读(61) 评论(0) 推荐(0) 编辑