足迹

能看不尽景,始是不凡人

 

随笔分类 -  系统

系统设计,包括硬件系统与软件系统
Transformer 估算 101
摘要:Transformer 估算 101 本文主要介绍用于估算 transformer 类模型计算量需求和内存需求的相关数学方法。 引言 其实,很多有关 transformer 语言模型的一些基本且重要的信息都可以用很简单的方法估算出来。不幸的是,这些公式在 NLP 社区中鲜为人知。本文的目的是总结这些 阅读全文

posted @ 2023-05-08 22:39 姚伟峰 阅读(1211) 评论(0) 推荐(0)

图智能 101
摘要:GNN 101 姚伟峰 http://www.cnblogs.com/Matrix_Yao/ GNN 101 Why Graph无处不在 Graph Intelligence helps It’s the right time now! What 如何建模图 Different Types of G 阅读全文

posted @ 2022-11-04 19:23 姚伟峰 阅读(244) 评论(0) 推荐(0)

集合通信行为分析 - 基于NCCL
摘要:姚伟峰 集合通信行为分析 - 基于NCCL Phases NCCL Topology Phase Build Physical Topology (i.e. System Topology) Transport Types Build Logical Topology (i.e. Graph Top 阅读全文

posted @ 2022-02-17 15:55 姚伟峰 阅读(3517) 评论(0) 推荐(0)

单机互联拓扑获取 - 软件方式
摘要:姚伟峰 单机互联拓扑获取 - 软件方式 NV GPU 概况 物理连接拓扑 Reference NV GPU 概况 $ nvidia-smi 如下是在某种机型上的输出示例: 可知,本机型共有8张V100S-PCIe卡,每卡TDP为250W,DRAM大小为32GB。 物理连接拓扑 $ nvidia-sm 阅读全文

posted @ 2022-02-17 15:47 姚伟峰 阅读(755) 评论(0) 推荐(0)

如何估算模型训练T(FL)OPS efficiency
摘要:Naive方法 以Torch Vision ResNet50-v1.5为例。 Step 1: 获取模型的前向理论需求MACs(Multiply–ACcumulate) 可使用thop得到模型的前向MACS。使用如下代码可得Torch Vision ResNet50-v1.5的前向MACs为4.112 阅读全文

posted @ 2021-12-30 08:43 姚伟峰 阅读(455) 评论(0) 推荐(0)

Intel Architecture Day Takeaways
摘要:Intel Architecture Day Takeaways 姚伟峰 Intel Architecture Day Takeaways Key Messages Problems To Be Solved Intel’s Answer SiPs CPU GPU IPU Thoughts Abou 阅读全文

posted @ 2021-10-26 14:14 姚伟峰 阅读(170) 评论(0) 推荐(0)

27倍性能之旅 - 以大底库全库向量召回为例谈Profiling驱动的性能优化
摘要:问题 Problem kNN(k Nearest Neighbor)定义 给定一个查询向量,按照某个选定的准则(如欧式距离),从底库中选择个与查询向量最相似或者最邻近的向量的过程。 输入 查询向量(query): 底库(database): , 库中有个向量,每个向量的维度为,即 输出 底库中与查询 阅读全文

posted @ 2020-09-01 09:41 姚伟峰 阅读(1040) 评论(1) 推荐(0)

CPU深度学习模型推理性能抖动问题
摘要:问题 客户在其环境中发现推理延时毛刺问题,如下: 模型为ResNet-152 v1 FP32推理。 从log可见,抖动出现的频率还比较高,且双路时抖动时延高达平均时延的20倍左右,已经会影响客户的SLA(Service Level Agreement)。 初步排查 环境是裸机还是云主机? 裸机 绑核 阅读全文

posted @ 2020-06-23 14:43 姚伟峰 阅读(879) 评论(3) 推荐(1)

深度学习推理性能优化
摘要:深度学习推理性能优化 推理性能优化: 一个越来越重要的话题 一些初期的探索和经验 推理优化四部曲 算子优化 图优化 模型压缩 部署优化 前方的路 References 推理性能优化: 一个越来越重要的话题 为什么我们开始关注和重视推理性能的优化。 天时 深度学习的上半场主题是自证, 数据科学家们设计 阅读全文

posted @ 2020-06-23 14:05 姚伟峰 阅读(4877) 评论(12) 推荐(5)

CPU二则
摘要:CPU二则 CPU二则 aligned load & unaligned load non-temporal store(streaming store) 参考文献 aligned load & unaligned load 看CPU指令手册的时候,会看到有两条指令:vmovups & vmovap 阅读全文

posted @ 2018-08-29 08:21 姚伟峰 阅读(1974) 评论(0) 推荐(1)

CPU TFLOPS 计算
摘要:姚伟峰 CPU峰值算力计算 浮点算力 FP64 TFLOPS计算 AVX FP64 FMA 举个栗子 FP32 TFLOPS计算 AVX FP32 FMA 举个栗子 FP16 TFLOPS计算 Using AVX FP32 FMA AVX FP16 FMA BF16 TFLOPS计算 AVX BF1 阅读全文

posted @ 2018-08-28 21:28 姚伟峰 阅读(10889) 评论(0) 推荐(0)

深度学习框架演进史
摘要:深度学习框架演进史 姚伟峰 http://www.cnblogs.com/Matrix_Yao/ 深度学习框架演进史 第一代 - 要有光 第二代 - 要有图 第三代 - 要自由 故事没有结束…… 以古为鉴,可以知兴替。-《新唐书 魏征传》 本文主要从设计思路上分析,不考虑生态、分布式等其他应用角度。 阅读全文

posted @ 2017-12-12 11:09 姚伟峰 阅读(1947) 评论(1) 推荐(0)

导航