各大公司AI栈分析

  华为 海光 amd intel nv
GPU/NPU Ascend910 深算二号

Instinct MI100-300

RX 桌面系列(

RX5000,RX6000

RX7000,RX9000)

 Gaudi 3

桌面:ARC A770

 

 

P100、V100、A100、H100、B200

桌面:RTX 4090

计算架构 CANN ROCm ROCm OneAPI CUDA
AI推理部署框架 MindSpore Serving    SGlang  OPEA、OpenVino  TensorRT-LLM/NIM
AI推理训练框架  MindSpore    PyTorch PyTorch  PyTorch

开源AI推理部署框架:Ollama、VLLM、LLaMA.cpp、 

各个公司都在PyTorch发力。 似乎TensorFlow已不再是主流。 

英伟达服务器GPU对比

GPU架构工艺CUDA 核心数显存类型显存容量内存带宽FP16 峰值性能应用场景
P100 NVIDIA Pascal 16nm 无具体数据 HBM2 16GB/32GB 732GB/s 或 549GB/s 18.7 teraFLOPS 具备强扩展能力的 HPC、混合型工作负载 HPC 的数据中心
V100 Volta 12nm 5120 个 HBM2 16GB/32GB 900GB/s 125TFLOPS 深度学习训练和推理、高性能计算、数据分析
A100 Ampere 7nm 6912 个 HBM2E 40GB/80GB 1.6TB/s 312TFLOPS 深度学习训练、推理、高性能计算和数据分析
H100 Hopper 台积电 4N 16384 个 HBM3 80GB 3TB/s 840TFLOPS 大规模 AI 训练和推理、高性能计算
B200 Blackwell 无具体数据 无具体数据 HBM3e 192GB(每个 Die 4 个 24GB 的 HBM3e stack) 8TB/s 无具体数据 超大规模数据中心、人工智能和机器学习、高性能计算(HPC)

DeepSeep 大模型服务

 AMD:提供解决方案

 腾讯云:提供大模型即服务

REF: 

桌面端显卡天梯图

2025 GPU 风云再起:RTX 50 系登场,RTX 5070 凭啥叫板 4090? 

posted @ 2025-01-30 19:40  lvmxh  阅读(16)  评论(0编辑  收藏  举报