从供需的视角:半导体行业量化分析的尝试
之前 blog [1] 十分感性地总结了“半导体科研工程导向强”。“工程”语境相对于“科学”而言。那么何为“科学”,何为“工程”?“科学是认识世界,工程是改变世界”,即所谓工程导向即不光要考虑技术原理、还要考虑可行性,再升华点便是需要同时思考供给和需求侧特点。本文尝试感性地构建一个量化分析框架解释这一观点。
基础理论
首先引入几个基础定理:
- 通往罗马的道路不止一条。 提高模型部署性能,我既可以开发一个定制加速器全栈优化,也可以编写 CUDA 算子纯软件优化。
- 不同道路开发成本差距根本上无法改变。 虽然工具越来越方便好用,比如 FPGA 有各种好用的 HLS 或者 ADL [2],ASIC EDA 工具越来越强大,大家开发成本不断降低。但成本永远维持 ASIC >> FPGA >> Software 关系不变,这是由处理问题复杂性所决定的 [3]。
- 不同场景对性能敏感程度不一样。 一些场景不需要很强的性能,做点小程序业务实现就行;而一些场景则是性能越强越好,比如数据中心。
不同的道路,社会会将资源导向 在相同资源下,收益最高的方法,不同道路之间的可替代性决定了半导体并非完全科研导向,性能越高越好,而是找到性能-净收益的 pareto front 并在所有替代方案中取胜。
从系统供应层面来看
- 应用场景:\(a\) 某一个具体的应用场景
- 应用面: \(A=\{a_{0},a_{1},\dots\}\) 需要讨论的应用场景的集合
- 表现:\(P(a)\in R\) 系统在某一个应用场景下的表现,具体指标根据讨论范围定义,比如功耗、性能、可重构性等等,表示一个系统表现可用所以应用场景的表现集合表示 \(P=P(A)=\{P(a)|a\in A\}\)
- 固定成本:\(C(A)\in R\) 固定成本和需要支持的应用场景有关
- 增量成本:\(k\in R\) 卖出单位系统的成本
- 售价:\(r\in R\) 单位系统的售价
- 规模市场:\(M(a)\) 某一个应用场景潜在的规模市场,某系统潜在系统由所有应用场景市场之和定义 \(M=M(A)=\sum_{a\in A} M(a)\)
- 利润: \(\text{Revenue}=(r-k) \times M(A)-C(A)\)
售价 \(r\) 取决于需求侧体验、市场占用量,为分析简单,假设售价仅由体验定义,且仅考虑单一应用场景,定义为 \(r=f(P(A))=f_{a}(P(a))\)
某条技术路线能够站住需要满足两个条件:
- 商业净利润为正: \(\text{Revenue}=(f_{a}(P (a))-k)\times M (a)-C (a)>0\)
- 在可替代路线里胜出,该条路线在所有路线中利润最大
对于不同的技术路线,如 SW、FPGA、ASIC 等,可以用一组成本-收益定义 \(\{k,C(a),P(a)\}\);对于不同的应用场景,可以用规模和性能敏感程度定义 \(\{M(a),f_{a}\}\)。
场景-技术对比
| 路线 | \(k\) | \(C(a)\) | \(P(a)\) |
|---|---|---|---|
| 软件 | 单位 NVIDIA 产品成本 | 人力成本 | NVIDIA 产品经过软件优化表现 |
| FPGA | 单位 FPGA 产品成本 | 人力成本、服务器 | FPGA 在某个应用场景软硬件耦合设计的表现 |
| ASIC | 单位芯片流片成本 | 人力成本、服务器、EDA 授权费、IP 授权费、流片开工费 | ASIC 在某个应用场景软硬件耦合设计的表现 |
将常见 AI 应用场景分为三类讨论:
- 云端集群:对性能、能效极其敏感,省下 1%的电费都是巨大开销;
- 边缘能耗冗余:能耗并非核心限制,大部分能耗都在物理而非计算上;
- 极端边缘:边缘能耗极端受限,比如智能穿戴设备;
不妨将此类表现定义为“性能-能效”,即 \(P(a)=\{\text{Speed}(a),\text{Efficiency}(a)\}\),场景收益则定义为 \(f_{a}=g_{a}(\text{Speed}(a)) \times h_{a}(\text{Efficiency}(a))\)。
具体表示性能、能效的收益敏感曲线归类为以下两种:
- 指标越高越好,(有意义讨论范围内)上不设限:线性关系 \(y=kx\)
- 随着指标边缘递减:\(y=kx^\alpha,\alpha\in(0,1)\)
应用场景敏感函数的特点:
| 场景 | \(g\) | \(h\) |
|---|---|---|
| 云端集群 | 线性 | 线性 |
| 边缘能耗冗余 | 边缘递减(计算逐渐受限传感器频率) | 边缘递减 |
| 极端边缘 | 线性,一方面性能会逐渐受限传感器,另一方面由于能耗受限性能提升可以缩减规模集成更多功能,假设前者影响忽略不计 | 线性 |
赛博斗蛐蛐
受限于数据缺失以及个人能力,很难细节评估准确数据,因此仅给出感性量化数据以斗蛐蛐,日后有空再补充具体数据修正。以云端集群场景分析:
| 技术路线 | TOPS | Utilization | Speed | Effciency |
|---|---|---|---|---|
| 软件 | 1x | 0.5 x | 0.5 x | 1 x |
| FPGA | 0.37 x | 0.8 x | 0.296 x | 2.5 x |
| ASIC | 1 x | 0.8 x | 0.8 x | 5 x |
- 推理速度 \(\text{OPS}\times \text{Utilization}\)。
- 功耗,还尚未找到标准的比较方法,大致根据这篇文章[7]总结数据来看,考虑 50% sparsity + INT 4 量化,A 100 的片内大致在在 4 TOPS/W 左右;而 ISSCC AI accelerator PVT 能效最优下、最夸张的极端值在 ~50 TOPS/W 这个数量级,实际芯片不会跑在此 PVT 下,并且考虑片外访存拉低系统级表现,ASIC 相比 GPU 感性给个 5 x ,FPGA 感性折中给个 2.5 x
| 路线 | \(k\) | \(C(a)\) |
|---|---|---|
| 软件 | 140 k | 500W |
| FPGA | 50 k | 1000W |
| ASIC | 0.8 k | 10000W |
数据估计方法
- 软件增量成本: A 100 80GB 大致价格在 2W 刀即 14 W RMB
- FPGA 增量成本:VE 280 开发套件单价大约 6995 刀即 5W RMB
- ASIC 单位芯片价格:25 年台积电 7nm 单片 12 英寸 wafer 报价 9240 刀(6.6W RMB)[8],面积 70,686 mm² 以最大单 die 曝光面积 800 mm² 可切 88.35 块,考虑 90% yield 大致在 80 块,平均每块 die 825 RMB
- 固定成本:软件和 FPGA 主要集中在人力成本,软件假设招 10 个年薪百万工程师,项目周期半年,也就 500W 的开销,FPGA 硬件设计要稍贵一些,而数字流片 7nm 随便几个亿就烧出去了[9],就当是一个亿吧
设置表现敏感函数 \(r=\gamma\times \text{Speed} \times \text{Effciency}\),假设没有经过优化的 GPU 表现对标其售价,此时 utilization 感性给予 0.3 x,得 \(\gamma=467\text{k}\)

经过这一套乱拟合得到如上曲线,在市场较小时,软件比较有优势;市场规模中等时,FPGA 占优势;而市场规模增大后,ASIC 抵消固定成本优势便一骑绝尘。虽然拟合过程非常不严谨,但只要保证理论基础假设正确,大致趋势相似。这或许可以解释为什么互联网厂商纷纷下场芯片,厂商本身有大量的训练需求,并不愁市场规模问题,容易度过收支平衡的规模点,别人要考虑“做出来”和“卖出去”的问题,而互联网厂商只需要考虑“做出来”的问题。一旦路线打通,便能实打实从 NVIDIA 的超高产品附加值上啃下一块肉。
https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/a100/pdf/nvidia-a100-datasheet-us-nvidia-1758950-r4-web.pdf ↩︎
https://www.amd.com/en/products/adaptive-socs-and-fpgas/evaluation-boards/vek280.html ↩︎
https://www.tomshardware.com/news/tsmc-expected-to-charge-25000usd-per-2nm-wafer ↩︎
https://www.zhihu.com/question/514136659/answer/2330670824 ↩︎

浙公网安备 33010602011771号