摘要:Transformer 估算 101 本文主要介绍用于估算 transformer 类模型计算量需求和内存需求的相关数学方法。 引言 其实,很多有关 transformer 语言模型的一些基本且重要的信息都可以用很简单的方法估算出来。不幸的是,这些公式在 NLP 社区中鲜为人知。本文的目的是总结这些
阅读全文
摘要:GNN 101 姚伟峰 http://www.cnblogs.com/Matrix_Yao/ GNN 101 Why Graph无处不在 Graph Intelligence helps It’s the right time now! What 如何建模图 Different Types of G
阅读全文
摘要:姚伟峰 集合通信行为分析 - 基于NCCL Phases NCCL Topology Phase Build Physical Topology (i.e. System Topology) Transport Types Build Logical Topology (i.e. Graph Top
阅读全文
摘要:姚伟峰 单机互联拓扑获取 - 软件方式 NV GPU 概况 物理连接拓扑 Reference NV GPU 概况 $ nvidia-smi 如下是在某种机型上的输出示例: 可知,本机型共有8张V100S-PCIe卡,每卡TDP为250W,DRAM大小为32GB。 物理连接拓扑 $ nvidia-sm
阅读全文
摘要:Naive方法 以Torch Vision ResNet50-v1.5为例。 Step 1: 获取模型的前向理论需求MACs(Multiply–ACcumulate) 可使用thop得到模型的前向MACS。使用如下代码可得Torch Vision ResNet50-v1.5的前向MACs为4.112
阅读全文
摘要:Intel Architecture Day Takeaways 姚伟峰 Intel Architecture Day Takeaways Key Messages Problems To Be Solved Intel’s Answer SiPs CPU GPU IPU Thoughts Abou
阅读全文
摘要:问题 Problem kNN(k Nearest Neighbor)定义 给定一个查询向量,按照某个选定的准则(如欧式距离),从底库中选择个与查询向量最相似或者最邻近的向量的过程。 输入 查询向量(query): 底库(database): , 库中有个向量,每个向量的维度为,即 输出 底库中与查询
阅读全文
摘要:问题 客户在其环境中发现推理延时毛刺问题,如下: 模型为ResNet-152 v1 FP32推理。 从log可见,抖动出现的频率还比较高,且双路时抖动时延高达平均时延的20倍左右,已经会影响客户的SLA(Service Level Agreement)。 初步排查 环境是裸机还是云主机? 裸机 绑核
阅读全文
摘要:深度学习推理性能优化 推理性能优化: 一个越来越重要的话题 一些初期的探索和经验 推理优化四部曲 算子优化 图优化 模型压缩 部署优化 前方的路 References 推理性能优化: 一个越来越重要的话题 为什么我们开始关注和重视推理性能的优化。 天时 深度学习的上半场主题是自证, 数据科学家们设计
阅读全文
摘要:CPU二则 CPU二则 aligned load & unaligned load non-temporal store(streaming store) 参考文献 aligned load & unaligned load 看CPU指令手册的时候,会看到有两条指令:vmovups & vmovap
阅读全文
摘要:姚伟峰 CPU峰值算力计算 浮点算力 FP64 TFLOPS计算 AVX FP64 FMA 举个栗子 FP32 TFLOPS计算 AVX FP32 FMA 举个栗子 FP16 TFLOPS计算 Using AVX FP32 FMA AVX FP16 FMA BF16 TFLOPS计算 AVX BF1
阅读全文
摘要:深度学习框架演进史 姚伟峰 http://www.cnblogs.com/Matrix_Yao/ 深度学习框架演进史 第一代 - 要有光 第二代 - 要有图 第三代 - 要自由 故事没有结束…… 以古为鉴,可以知兴替。-《新唐书 魏征传》 本文主要从设计思路上分析,不考虑生态、分布式等其他应用角度。
阅读全文