EC2 G7 实例发布:Blackwell GPU 上云了,AI 推理性能 4.6 倍提升

"老板问我:跑 Stable Diffusion 推理的 GPU 实例能不能再便宜点、再快点?"

这个问题终于有了新答案。6 月 18 日,亚马逊云科技正式发布 Amazon EC2 G7 实例——搭载 NVIDIA RTX PRO 4500 Blackwell Server Edition GPU,AI 推理性能比上一代 G6 实例提升 4.6 倍。

先说核心数据

和上一代 G6 实例对比:

维度 G6 G7 提升
GPU 架构 Ada Lovelace Blackwell 新一代
每 GPU 显存 24 GB 32 GB 1.33x
显存带宽 2.45x
AI 推理性能 baseline 4.6x
图形渲染性能 baseline 2.1x
网络带宽 100 Gbps 700 Gbps 7x
Tensor Core 4th Gen 5th Gen
RT Core 3rd Gen 4th Gen
视频编码 8th Gen NVENC 9th Gen NVENC 1.5x 并发流

几个关键数字解读:

  • 4.6x AI 推理性能:同一个模型,G7 上跑一次推理的延迟是 G6 的 1/4 到 1/5。对延迟敏感的在线推理场景,直接换实例类型就能看到效果
  • 700 Gbps 网络:比 G6 的 100 Gbps 快 7 倍。多卡协同或数据密集型场景(比如从 S3 加载大模型权重),网络不再是瓶颈
  • 7.6 TB 本地 NVMe SSD:大模型权重可以放本地盘,不用每次从 S3 拉

实例规格

G7 实例有 7 种大小:

import boto3

ec2 = boto3.client('ec2', region_name='us-east-1')

# 查看 G7 实例规格
response = ec2.describe_instance_types(
    InstanceTypes=[
        'g7.xlarge', 'g7.2xlarge', 'g7.4xlarge', 
        'g7.8xlarge', 'g7.12xlarge', 'g7.16xlarge', 'g7.48xlarge'
    ]
)

for instance in response['InstanceTypes']:
    gpu_info = instance.get('GpuInfo', {})
    gpus = gpu_info.get('Gpus', [{}])[0]
    print(f"{instance['InstanceType']:15s} | "
          f"vCPU: {instance['VCpuInfo']['DefaultVCpus']:3d} | "
          f"内存: {instance['MemoryInfo']['SizeInMiB']//1024:3d} GB | "
          f"GPU: {gpus.get('Count', 0)}x {gpus.get('Name', 'N/A')}")

最大配置 g7.48xlarge

  • 192 vCPU
  • 768 GiB 内存
  • 8x NVIDIA RTX PRO 4500(共 256 GB GPU 显存)
  • 700 Gbps 网络(EFA 支持)
  • 7.6 TB 本地 NVMe

适合什么场景

1. AI 推理(在线服务)

比如你在跑 Stable Diffusion、LLM 推理、或自训练模型的在线服务:

import boto3
import json

# 启动 G7 实例跑推理服务
ec2 = boto3.resource('ec2', region_name='us-east-1')

instance = ec2.create_instances(
    ImageId='ami-xxxxxxxxx',  # Deep Learning AMI
    InstanceType='g7.4xlarge',  # 1 GPU, 32 GB 显存
    MinCount=1,
    MaxCount=1,
    BlockDeviceMappings=[{
        'DeviceName': '/dev/sda1',
        'Ebs': {'VolumeSize': 200, 'VolumeType': 'gp3'}
    }],
    TagSpecifications=[{
        'ResourceType': 'instance',
        'Tags': [{'Key': 'Name', 'Value': 'sd-inference-g7'}]
    }]
)[0]

print(f'实例启动中: {instance.id}')

一张 RTX PRO 4500(32 GB 显存)足够跑 SDXL、Flux.1 这类图像生成模型。如果是 70B 级别的 LLM 推理,用 g7.48xlarge(8 卡 256 GB)配合 Tensor Parallelism。

2. 图形渲染 + VDI

G7 支持 NICE DCV 远程桌面协议,适合做:

  • 云上 3D 渲染农场
  • 远程图形工作站(设计师、工程师远程办公)
  • 游戏云渲染/云游戏

2.1x 的图形性能提升 + 4th Gen RT Core,光追场景渲染速度直接翻倍。

3. 视频转码

9th Gen NVENC 支持 4:2:2 编解码:

  • 1.5x 并发视频流(同实例能处理更多路转码)
  • 专业级色彩空间支持(广播级 4:2:2 采样)
  • 适合做 VOD 转码、直播流处理

4. GPU 加速分析

在 Amazon EMR on EKS 上跑 Spark GPU 加速:

# EMR on EKS 配置 G7 实例
node_group_config = {
    'instanceTypes': ['g7.4xlarge'],
    'scalingConfig': {
        'minSize': 1,
        'maxSize': 10,
        'desiredSize': 2
    },
    'labels': {
        'workload-type': 'gpu-analytics'
    }
}

对于大数据 ETL 中的复杂聚合、JOIN 操作,GPU 加速可以把查询时间从分钟级降到秒级。

G7 vs 其他 GPU 实例选型

实例族 GPU 适合场景 显存/卡
G7 RTX PRO 4500 Blackwell AI 推理 + 图形 + 视频 32 GB
G6 L4 Ada 轻量推理 + 视频 24 GB
P5 H100 大模型训练 80 GB
P4d A100 训练 + 大规模推理 40 GB
Inf2 Inferentia2 纯推理(高性价比)

选型建议:

  • 需要兼顾推理+图形+视频 → G7
  • 纯大模型训练 → P5
  • 纯推理追求性价比 → Inf2
  • 预算有限轻量推理 → G6(上一代但便宜)

怎么开始用

G7 实例已经 GA(正式可用)。在 EC2 控制台或 CLI 中选择 g7.* 实例类型即可启动。

几个建议:

  1. 用 Deep Learning AMI:预装了 NVIDIA 驱动、CUDA、cuDNN,省去环境配置
  2. 先试 g7.xlarge:1 GPU 32 GB 显存,跑通了再考虑多卡
  3. 搭配 Spot 实例:推理任务如果能容忍中断,Spot 价格通常是 On-Demand 的 30-40%
  4. 注意区域可用性:刚发布可能不是所有 Region 都有,建议先看 us-east-1

迁移建议

如果你现在跑的是 G6 或 G5 实例:

  1. 先在 G7 上跑个 benchmark:同一个推理任务,对比延迟和吞吐。大部分情况下,单卡 G7 能顶 2-3 张 G6
  2. 评估是否能减少实例数:比如原来 4 台 g6.2xlarge,可能 2 台 g7.2xlarge 就够了
  3. 注意驱动版本:Blackwell GPU 需要 NVIDIA 驱动 570+,建议直接用 AWS Deep Learning AMI(已经预装好)
  4. EFA 网络:如果你的推理场景需要多卡通信(Tensor Parallelism),G7 的 700 Gbps EFA 是一个巨大优势
# 快速验证 G7 GPU 状态
nvidia-smi
# 应该看到 NVIDIA RTX PRO 4500, 32GB, Driver 570+

# 跑一个简单的推理 benchmark
python3 -c "
import torch
import time

device = torch.device('cuda')
x = torch.randn(1024, 1024, device=device)

start = time.time()
for _ in range(1000):
    y = torch.matmul(x, x)
torch.cuda.synchronize()

print(f'1000次矩阵乘法: {time.time()-start:.3f}s')
print(f'GPU: {torch.cuda.get_device_name(0)}')
print(f'显存: {torch.cuda.get_device_properties(0).total_mem/1024**3:.1f} GB')
"

具体规格和定价:https://aws.amazon.com/ec2/instance-types/g7/


这是 AWS 新实例系列文章之一。G7 是 GPU 计算实例线上的重要更新——Blackwell 架构上云,意味着 NVIDIA 工作站级 GPU 的性能可以在云上按需使用了。对于跑推理服务的团队来说,这可能是年度内性价比提升幅度最大的一次硬件更新。

posted @ 2026-06-22 11:34  亚马逊云开发者  阅读(17)  评论(0)    收藏  举报