从供需的视角:半导体行业量化分析的尝试

之前 blog [1] 十分感性地总结了“半导体科研工程导向强”。“工程”语境相对于“科学”而言。那么何为“科学”,何为“工程”?“科学是认识世界,工程是改变世界”,即所谓工程导向即不光要考虑技术原理、还要考虑可行性,再升华点便是需要同时思考供给和需求侧特点。本文尝试感性地构建一个量化分析框架解释这一观点。

基础理论

首先引入几个基础定理:

  • 通往罗马的道路不止一条。 提高模型部署性能,我既可以开发一个定制加速器全栈优化,也可以编写 CUDA 算子纯软件优化。
  • 不同道路开发成本差距根本上无法改变。 虽然工具越来越方便好用,比如 FPGA 有各种好用的 HLS 或者 ADL [2],ASIC EDA 工具越来越强大,大家开发成本不断降低。但成本永远维持 ASIC >> FPGA >> Software 关系不变,这是由处理问题复杂性所决定的 [3]
  • 不同场景对性能敏感程度不一样。 一些场景不需要很强的性能,做点小程序业务实现就行;而一些场景则是性能越强越好,比如数据中心。

不同的道路,社会会将资源导向 在相同资源下,收益最高的方法,不同道路之间的可替代性决定了半导体并非完全科研导向,性能越高越好,而是找到性能-净收益的 pareto front 并在所有替代方案中取胜。

从系统供应层面来看

  • 应用场景:\(a\) 某一个具体的应用场景
  • 应用面: \(A=\{a_{0},a_{1},\dots\}\) 需要讨论的应用场景的集合
  • 表现:\(P(a)\in R\) 系统在某一个应用场景下的表现,具体指标根据讨论范围定义,比如功耗、性能、可重构性等等,表示一个系统表现可用所以应用场景的表现集合表示 \(P=P(A)=\{P(a)|a\in A\}\)
  • 固定成本:\(C(A)\in R\) 固定成本和需要支持的应用场景有关
  • 增量成本:\(k\in R\) 卖出单位系统的成本
  • 售价:\(r\in R\) 单位系统的售价
  • 规模市场:\(M(a)\) 某一个应用场景潜在的规模市场,某系统潜在系统由所有应用场景市场之和定义 \(M=M(A)=\sum_{a\in A} M(a)\)
  • 利润: \(\text{Revenue}=(r-k) \times M(A)-C(A)\)

售价 \(r\) 取决于需求侧体验、市场占用量,为分析简单,假设售价仅由体验定义,且仅考虑单一应用场景,定义为 \(r=f(P(A))=f_{a}(P(a))\)

某条技术路线能够站住需要满足两个条件:

  • 商业净利润为正: \(\text{Revenue}=(f_{a}(P (a))-k)\times M (a)-C (a)>0\)
  • 在可替代路线里胜出,该条路线在所有路线中利润最大

对于不同的技术路线,如 SW、FPGA、ASIC 等,可以用一组成本-收益定义 \(\{k,C(a),P(a)\}\);对于不同的应用场景,可以用规模和性能敏感程度定义 \(\{M(a),f_{a}\}\)

场景-技术对比

路线 \(k\) \(C(a)\) \(P(a)\)
软件 单位 NVIDIA 产品成本 人力成本 NVIDIA 产品经过软件优化表现
FPGA 单位 FPGA 产品成本 人力成本、服务器 FPGA 在某个应用场景软硬件耦合设计的表现
ASIC 单位芯片流片成本 人力成本、服务器、EDA 授权费、IP 授权费、流片开工费 ASIC 在某个应用场景软硬件耦合设计的表现

将常见 AI 应用场景分为三类讨论:

  • 云端集群:对性能、能效极其敏感,省下 1%的电费都是巨大开销;
  • 边缘能耗冗余:能耗并非核心限制,大部分能耗都在物理而非计算上;
  • 极端边缘:边缘能耗极端受限,比如智能穿戴设备;

不妨将此类表现定义为“性能-能效”,即 \(P(a)=\{\text{Speed}(a),\text{Efficiency}(a)\}\),场景收益则定义为 \(f_{a}=g_{a}(\text{Speed}(a)) \times h_{a}(\text{Efficiency}(a))\)

具体表示性能、能效的收益敏感曲线归类为以下两种:

  • 指标越高越好,(有意义讨论范围内)上不设限:线性关系 \(y=kx\)
  • 随着指标边缘递减:\(y=kx^\alpha,\alpha\in(0,1)\)

应用场景敏感函数的特点:

场景 \(g\) \(h\)
云端集群 线性 线性
边缘能耗冗余 边缘递减(计算逐渐受限传感器频率) 边缘递减
极端边缘 线性,一方面性能会逐渐受限传感器,另一方面由于能耗受限性能提升可以缩减规模集成更多功能,假设前者影响忽略不计 线性

赛博斗蛐蛐

受限于数据缺失以及个人能力,很难细节评估准确数据,因此仅给出感性量化数据以斗蛐蛐,日后有空再补充具体数据修正。以云端集群场景分析:

技术路线 TOPS Utilization Speed Effciency
软件 1x 0.5 x 0.5 x 1 x
FPGA 0.37 x 0.8 x 0.296 x 2.5 x
ASIC 1 x 0.8 x 0.8 x 5 x
  • 推理速度 \(\text{OPS}\times \text{Utilization}\)
    • GA 100[4] [5]有 54.2 G 晶体管,80GB TDP 能有 1065MHz 基频, 624 dense INT 8 TOPS 频率即 ~6M dense INT 8 TOPs /cycle
    • Versal AI Edge VE 2802 [6]能达到 228TOPS 的水平
  • 功耗,还尚未找到标准的比较方法,大致根据这篇文章[7]总结数据来看,考虑 50% sparsity + INT 4 量化,A 100 的片内大致在在 4 TOPS/W 左右;而 ISSCC AI accelerator PVT 能效最优下、最夸张的极端值在 ~50 TOPS/W 这个数量级,实际芯片不会跑在此 PVT 下,并且考虑片外访存拉低系统级表现,ASIC 相比 GPU 感性给个 5 x ,FPGA 感性折中给个 2.5 x
路线 \(k\) \(C(a)\)
软件 140 k 500W
FPGA 50 k 1000W
ASIC 0.8 k 10000W

数据估计方法

  • 软件增量成本: A 100 80GB 大致价格在 2W 刀即 14 W RMB
  • FPGA 增量成本:VE 280 开发套件单价大约 6995 刀即 5W RMB
  • ASIC 单位芯片价格:25 年台积电 7nm 单片 12 英寸 wafer 报价 9240 刀(6.6W RMB)[8],面积 70,686 mm² 以最大单 die 曝光面积 800 mm² 可切 88.35 块,考虑 90% yield 大致在 80 块,平均每块 die 825 RMB
  • 固定成本:软件和 FPGA 主要集中在人力成本,软件假设招 10 个年薪百万工程师,项目周期半年,也就 500W 的开销,FPGA 硬件设计要稍贵一些,而数字流片 7nm 随便几个亿就烧出去了[9],就当是一个亿吧

设置表现敏感函数 \(r=\gamma\times \text{Speed} \times \text{Effciency}\),假设没有经过优化的 GPU 表现对标其售价,此时 utilization 感性给予 0.3 x,得 \(\gamma=467\text{k}\)

../../Extra/Images/Pasted image 20250809162912.png
经过这一套乱拟合得到如上曲线,在市场较小时,软件比较有优势;市场规模中等时,FPGA 占优势;而市场规模增大后,ASIC 抵消固定成本优势便一骑绝尘。虽然拟合过程非常不严谨,但只要保证理论基础假设正确,大致趋势相似。这或许可以解释为什么互联网厂商纷纷下场芯片,厂商本身有大量的训练需求,并不愁市场规模问题,容易度过收支平衡的规模点,别人要考虑“做出来”和“卖出去”的问题,而互联网厂商只需要考虑“做出来”的问题。一旦路线打通,便能实打实从 NVIDIA 的超高产品附加值上啃下一块肉。


  1. https://www.cnblogs.com/devil-sx/p/18653329 ↩︎

  2. https://www.cs.cornell.edu/~asampson/blog/adl.html ↩︎

  3. https://www.cnblogs.com/devil-sx/p/18860470 ↩︎

  4. https://www.techpowerup.com/gpu-specs/nvidia-ga100.g931 ↩︎

  5. https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/a100/pdf/nvidia-a100-datasheet-us-nvidia-1758950-r4-web.pdf ↩︎

  6. https://www.amd.com/en/products/adaptive-socs-and-fpgas/evaluation-boards/vek280.html ↩︎

  7. https://ieeexplore.ieee.org/document/9731686/ ↩︎

  8. https://www.tomshardware.com/news/tsmc-expected-to-charge-25000usd-per-2nm-wafer ↩︎

  9. https://www.zhihu.com/question/514136659/answer/2330670824 ↩︎

posted @ 2025-08-09 16:52  DevilXXL  阅读(86)  评论(0)    收藏  举报