从供需的视角：半导体行业量化分析的尝试

之前 blog ^[1] 十分感性地总结了“半导体科研工程导向强”。“工程”语境相对于“科学”而言。那么何为“科学”，何为“工程”？“科学是认识世界，工程是改变世界”，即所谓工程导向即不光要考虑技术原理、还要考虑可行性，再升华点便是需要同时思考供给和需求侧特点。本文尝试感性地构建一个量化分析框架解释这一观点。

基础理论

首先引入几个基础定理：

通往罗马的道路不止一条。 提高模型部署性能，我既可以开发一个定制加速器全栈优化，也可以编写 CUDA 算子纯软件优化。
不同道路开发成本差距根本上无法改变。 虽然工具越来越方便好用，比如 FPGA 有各种好用的 HLS 或者 ADL ^[2]，ASIC EDA 工具越来越强大，大家开发成本不断降低。但成本永远维持 ASIC >> FPGA >> Software 关系不变，这是由处理问题复杂性所决定的 ^[3]。
不同场景对性能敏感程度不一样。 一些场景不需要很强的性能，做点小程序业务实现就行；而一些场景则是性能越强越好，比如数据中心。

不同的道路，社会会将资源导向 在相同资源下，收益最高的方法，不同道路之间的可替代性决定了半导体并非完全科研导向，性能越高越好，而是找到性能-净收益的 pareto front 并在所有替代方案中取胜。

从系统供应层面来看

应用场景：\(a\) 某一个具体的应用场景
应用面： \(A=\{a_{0},a_{1},\dots\}\) 需要讨论的应用场景的集合
表现：\(P(a)\in R\) 系统在某一个应用场景下的表现，具体指标根据讨论范围定义，比如功耗、性能、可重构性等等，表示一个系统表现可用所以应用场景的表现集合表示 \(P=P(A)=\{P(a)|a\in A\}\)
固定成本：\(C(A)\in R\) 固定成本和需要支持的应用场景有关
增量成本：\(k\in R\) 卖出单位系统的成本
售价：\(r\in R\) 单位系统的售价
规模市场：\(M(a)\) 某一个应用场景潜在的规模市场，某系统潜在系统由所有应用场景市场之和定义 \(M=M(A)=\sum_{a\in A} M(a)\)
利润： \(\text{Revenue}=(r-k) \times M(A)-C(A)\)

售价 \(r\) 取决于需求侧体验、市场占用量，为分析简单，假设售价仅由体验定义，且仅考虑单一应用场景，定义为 \(r=f(P(A))=f_{a}(P(a))\)

某条技术路线能够站住需要满足两个条件：

商业净利润为正： \(\text{Revenue}=(f_{a}(P (a))-k)\times M (a)-C (a)>0\)
在可替代路线里胜出，该条路线在所有路线中利润最大

对于不同的技术路线，如 SW、FPGA、ASIC 等，可以用一组成本-收益定义 \(\{k,C(a),P(a)\}\)；对于不同的应用场景，可以用规模和性能敏感程度定义 \(\{M(a),f_{a}\}\)。

场景-技术对比

路线	\(k\)	\(C(a)\)	\(P(a)\)
软件	单位 NVIDIA 产品成本	人力成本	NVIDIA 产品经过软件优化表现
FPGA	单位 FPGA 产品成本	人力成本、服务器	FPGA 在某个应用场景软硬件耦合设计的表现
ASIC	单位芯片流片成本	人力成本、服务器、EDA 授权费、IP 授权费、流片开工费	ASIC 在某个应用场景软硬件耦合设计的表现

将常见 AI 应用场景分为三类讨论：

云端集群：对性能、能效极其敏感，省下 1%的电费都是巨大开销；
边缘能耗冗余：能耗并非核心限制，大部分能耗都在物理而非计算上；
极端边缘：边缘能耗极端受限，比如智能穿戴设备；

不妨将此类表现定义为“性能-能效”，即 \(P(a)=\{\text{Speed}(a),\text{Efficiency}(a)\}\)，场景收益则定义为 \(f_{a}=g_{a}(\text{Speed}(a)) \times h_{a}(\text{Efficiency}(a))\)。

具体表示性能、能效的收益敏感曲线归类为以下两种：

指标越高越好，（有意义讨论范围内）上不设限：线性关系 \(y=kx\)
随着指标边缘递减：\(y=kx^\alpha,\alpha\in(0,1)\)

应用场景敏感函数的特点：

场景	\(g\)	\(h\)
云端集群	线性	线性
边缘能耗冗余	边缘递减（计算逐渐受限传感器频率）	边缘递减
极端边缘	线性，一方面性能会逐渐受限传感器，另一方面由于能耗受限性能提升可以缩减规模集成更多功能，假设前者影响忽略不计	线性

赛博斗蛐蛐

受限于数据缺失以及个人能力，很难细节评估准确数据，因此仅给出感性量化数据以斗蛐蛐，日后有空再补充具体数据修正。以云端集群场景分析：

技术路线	TOPS	Utilization	Speed	Effciency
软件	1x	0.5 x	0.5 x	1 x
FPGA	0.37 x	0.8 x	0.296 x	2.5 x
ASIC	1 x	0.8 x	0.8 x	5 x

推理速度 \(\text{OPS}\times \text{Utilization}\)。
- GA 100^[4] ^[5]有 54.2 G 晶体管，80GB TDP 能有 1065MHz 基频， 624 dense INT 8 TOPS 频率即 ~6M dense INT 8 TOPs /cycle
- Versal AI Edge VE 2802 ^[6]能达到 228TOPS 的水平
功耗，还尚未找到标准的比较方法，大致根据这篇文章^[7]总结数据来看，考虑 50% sparsity + INT 4 量化，A 100 的片内大致在在 4 TOPS/W 左右；而 ISSCC AI accelerator PVT 能效最优下、最夸张的极端值在 ~50 TOPS/W 这个数量级，实际芯片不会跑在此 PVT 下，并且考虑片外访存拉低系统级表现，ASIC 相比 GPU 感性给个 5 x ，FPGA 感性折中给个 2.5 x

路线	\(k\)	\(C(a)\)
软件	140 k	500W
FPGA	50 k	1000W
ASIC	0.8 k	10000W

数据估计方法

软件增量成本： A 100 80GB 大致价格在 2W 刀即 14 W RMB
FPGA 增量成本：VE 280 开发套件单价大约 6995 刀即 5W RMB
ASIC 单位芯片价格：25 年台积电 7nm 单片 12 英寸 wafer 报价 9240 刀（6.6W RMB）^[8]，面积 70,686 mm² 以最大单 die 曝光面积 800 mm² 可切 88.35 块，考虑 90% yield 大致在 80 块，平均每块 die 825 RMB
固定成本：软件和 FPGA 主要集中在人力成本，软件假设招 10 个年薪百万工程师，项目周期半年，也就 500W 的开销，FPGA 硬件设计要稍贵一些，而数字流片 7nm 随便几个亿就烧出去了^[9]，就当是一个亿吧

设置表现敏感函数 \(r=\gamma\times \text{Speed} \times \text{Effciency}\)，假设没有经过优化的 GPU 表现对标其售价，此时 utilization 感性给予 0.3 x，得 \(\gamma=467\text{k}\)

经过这一套乱拟合得到如上曲线，在市场较小时，软件比较有优势；市场规模中等时，FPGA 占优势；而市场规模增大后，ASIC 抵消固定成本优势便一骑绝尘。虽然拟合过程非常不严谨，但只要保证理论基础假设正确，大致趋势相似。这或许可以解释为什么互联网厂商纷纷下场芯片，厂商本身有大量的训练需求，并不愁市场规模问题，容易度过收支平衡的规模点，别人要考虑“做出来”和“卖出去”的问题，而互联网厂商只需要考虑“做出来”的问题。一旦路线打通，便能实打实从 NVIDIA 的超高产品附加值上啃下一块肉。

posted @ 2025-08-09 16:52 DevilXXL 阅读(86) 评论(0) 收藏举报

刷新页面返回顶部

懒猫后花园

哦，这该死的代码！

从供需的视角：半导体行业量化分析的尝试

基础理论

场景-技术对比

赛博斗蛐蛐

公告