NVIDIA英伟达Jetson Thor 即将正式发售,深度分析Jetson Thor

微信视频号:sph0RgSyDYV47z6
快手号:4874645212
抖音号:dy0so323fq2w
小红书号:95619019828
 
英伟达Jetson Thor系列产品即将正式发售,英伟达官网放出了产品参数,目前有三个产品,包括一个是完整的开发套件,即AGX Thor Developer Kit,另外两个则是一片模组,高算力模组型号是T5000,低算力型号是T4000。目前还未公布价格,笔者推测AGX Thor Developer Kit价格在2999-3299美元之间,T5000价格是2299-2599美元,T4000价格是1999-2199美元。这三款产品目标市场都是具身智能和物理AI。T5000近似汽车领域的Thor-X,T4000近似汽车领域的Thor-U。
 
 
添加图片注释,不超过 140 字(可选)
T5000和T4000是一片699脚的板对板模组,面积是100毫米*87毫米,集成了TPP (Thermal Transfer Plate) 带热管的散热板。板对板连接器由MOLEX提供。
英伟达Jetson AGX Thor Developer Kit
 
 
添加图片注释,不超过 140 字(可选)
母板上的网卡芯片由瑞昱提供,型号为RTL8126,支持10/100/1000M/2.5G/5G Ethernet controller for PCIe;无线网卡与蓝牙模块由Azuruwave提供,型号为AW-XB560NF;140瓦直流适配器由台达电提供;1TB NVMe硬盘由西部数据提供。
Jetson Thor架构
 
 
添加图片注释,不超过 140 字(可选)
图片来源:英伟达
ARM V3AE内部框架图
 
 
添加图片注释,不超过 140 字(可选)
图片来源:ARM
Thor使用ARM的V3AE架构,AE代表特别针对汽车,指令L1缓存64KB,数据L1缓存为64KB,L2缓存最高支持3MB,Thor选择了1MB,L3缓存是16MB。顶配Thor-X为14核心,次顶配Thor-U为12核心。CPU最高运行频率是2.6GHz。
 
 
添加图片注释,不超过 140 字(可选)
数据来源:英伟达
与Orin相比,Thor取消了DLA,并且低精度AI运算完全由张量核心负责,GPU则负责高精度运算,分工明确,实际算力值就是理想算力值。不像上一代的Orin,AI算力由CUDA核心、张量核心和DLA三者相加。FP4精度下稀疏算力2070TFLOPs,由于transformer架构更适合浮点,所以英伟达这里只点出浮点计算算力,当然,浮点支持是比整数INT难度要高的。
这里我们简单解析一下,为什么英伟达仅仅用96个张量核心就取得2070TOPS的超高算力。
首先我们要对GPU架构有所了解,与CPU相比,GPU的体系架构中的一个最大特点就是增加了大量的运算单元ALU,通常GPU的一个处理器(也叫做流式多处理器,Streaming Multiprocessor)包括数十甚至上百个简单的计算核,整个GPU可以达到上千个核,与CPU相比,每个核的结构简单了很多,通常不支持一些CPU中使用的较为复杂的调度机制。在执行指令的时候,为了充分利用每一次读取指令带来的开销,GPU会以一组线程为单位同时执行相同的指令,即SIMT(单指令多线程)的方式,在CUDA GPU上,一组线程称为warp,也翻译叫线程束,一个warp有32个线程,每个线程执行相同的指令但访问不同的数据。为了将一个并行程序映射到GPU的多级并行度上,CUDA中首先将一组线程(通常不超1024个)组成一个线程块(block),每个线程块中的线程又可以分成多个warp被调度到GPU核上执行,一个线程块可以在一个SM上运行,多个线程块又可以组成一个网格(grid)。
AI运算最耗时的是矩阵的乘积累加,简写为MMA,英伟达的张量核心使用PTX MMA指令,PTX即Parallel Thread Execution,PTX 程序描述了一个核函数,该函数由大量 GPU 线程执行,这些线程在 GPU 的硬件执行单元(即 CUDA 核心)上执行。线程被组织为网格,每个网格由协作线程阵列 ( CTA )组成。PTX 线程可以访问来自多个状态空间的数据,这些状态空间是具有不同特性的内存存储区域。具体而言,线程具有每个线程的寄存器,CTA 内的线程具有共享内存,并且所有线程都可以访问全局内存。在指令发出时,指令单元选择一个 Warp,并向 Warp 中的线程发出指令。这种执行方法称为单指令多线程 ( SIMT )。与单指令多数据 ( SIMD ) 类似,SIMT 使用一条指令控制多个处理单元,但与 SIMD 不同的是,SIMT 指定的是单线程行为,而不是向量宽度。
为了简化计算,英伟达用m、n、k,描述参与乘法累加运算的Warp宽度矩阵块的形状,matrix_a块的尺寸为m*k;matrix_b的尺寸为k*n;accumulator块的尺寸为m*n。英伟达张量核心每一代的进步主要是扩展Warp的宽度。
 
 
添加图片注释,不超过 140 字(可选)
整理:佐思汽研
用MMA可以简单计算算力值,如Blackwell在FP4精度下,每周期的浮点算力是256*256*96,每条PTX指令,可以同时完成乘积和累加,即2OPs,即256*256*96*2=12582912,英伟达张量核心运行频率大致在1.3-1.7GHz之间,96个张量核心即48个SM单元,算力即为48*1.7GHz*12.582912=1026.7TOPS,与英伟达官方的1030TOPS非常接近。比第一代张量核心算力提高了几百倍。
 
 
添加图片注释,不超过 140 字(可选)
来源:网络
Thor的设计非常奇特,完全不同于英伟达的GPU产品。一般来说,一个GPU包含N个GPC(Graphics Processing Clusters),一个GPC包含N个TPC(Texture/Thread Processing Clusters),一个TPC包含N个SM(Streaming Multiprocessors)。以英伟达RTX5090为例,它有11个GPC,其中10个GPC包含8个TPC,1个GPC包含5个TPC,合计85个TPC,每个TPC包含2个SM,每个SM包含128个CUDA核心和4个张量核心,也就是说SM单元是完全一致的,而Thor是3个GPC,有两个GPC是包含4个TPC,一个GPC,包含2个TPC,也就是10个TPC。如果SM单元是完全一致的,那么不可能有96个张量核心。可能是某一个GPC全部都是张量核心。
Thor包含2560个CUDA核心,算力最高是8.064TFLOPs@FP32,功耗达130瓦,最高频率1.575GHz。Thor包含一个3.0版PVA可编程加速器,算力为165GFLOPs@FP32,支持立体双目视差匹配和光流算法,运行频率1.215GHz。
Jetson T5000系统框架图
 
 
添加图片注释,不超过 140 字(可选)
图片来源:英伟达
对比Jetson AGX Orin,接口数量有所扩展,I2C由8个增加到12个,I2S由4个增加到5个,CAN由2个增加到4个,增加了一个音频时钟接口,显示输出大幅度增加,HDMI/DP由1个增加到4个,做舱驾一体也没问题。
尽管Jetson Thor不是为汽车领域设计的,但仍然能基本满足车载需求,运行稳定在-25℃至115℃,Slowdown温度为109℃,可以7*24运行连续5年,不过输入电压略高,在7-20V之间。
Jetson Thor基本可以相当于两片Thor-U的性能,特别是在AI算力方面,因为两片Thor-U即便使用五代PCIe交换机连接,带宽也不过64GB/s,远低于英伟达第五代NVLink的1800GB/s,只有用NVLink才能达到理想状态,将GPU算力翻倍增加。当然,对于普通消费者,肯定觉得两片Thor-U更好。
云端和AI
车云
OTA研究
智能驾驶仿真
汽车云服务研究
自动驾驶地图
TSP与应用服务
V2X和车路协同
数据闭环研究
路侧智能感知
车路云一体化研究
 
AI大模型
汽车AI大模型研究
AI大模型对整车智能化影响
座舱AI应用研究
车载AI Agent产品开发与商业化
AI定义汽车
 
   
智驾系统集成和应用层
自动驾驶应用框架
ADAS与自动驾驶Tier1-国内
自主品牌ADAS
ADAS与自动驾驶Tier1-国外
国外OEM ADAS研究
L3/L4级自动驾驶和初创企业
理想L8/L9功能拆解
智能驾驶Tier1前10强对比
日本Tier1先进技术研究
自动驾驶算法和系统
端到端智驾研究
行泊一体研究
冗余系统
舱泊一体
智驾融合算法
舱行泊融合
汽车视觉算法
无人配送车
领航辅助驾驶(NOA)
 
感知
毫米波雷达
汽车视觉
激光雷达研究
红外夜视
激光雷达核心部件
车用超声波雷达
软件定义雷达
车载摄像头Tier2
MEMS传感器
前视一体机
   
智舱系统集成和应用层
智能座舱应用框架
智能座舱Tier1
座舱设计趋势
智能座舱平台
 
座舱显示
车载XR研究
HUD产业链
仪表和中控显示
电子后视镜
座舱多屏与联屏
行车记录仪
HUD产业研究
智能玻璃
座舱交互
车载语音
车载香氛与空气净化
舱内监控研究
汽车音响
汽车多模态交互
智能表面
手势交互发展
 
座舱互联娱乐与生态
汽车生态域
自主品牌车联网
汽车数字钥匙
合资品牌车联网
车载支付
新势力品牌车联网
车载信息娱乐
商用车车联网
汽车eCall系统
商用车智能座舱
座舱其他
汽车舒适系统
智能车门
汽车照明
上海车展75项趋势
车载无线充电
两轮车智能化
AI/AR眼镜研究
 
   
OS和支撑层
SDV框架
SDV:OEM软件开发和供应链部署策略
汽车软件业务模式
SDV: SOA与中间件
 
基础软件/系统平台
AUTOSAR研究
汽车操作系统
数字仪表OS
 
信息安全/功能安全
汽车信息安全
汽车功能安全
   
电子电气架构层
E/E架构框架
E/E架构
汽车电子代工
48V低压供电网络
 
智驾域
自动驾驶SoC
ADAS域控组件
自动驾驶域控
 
座舱域
智能座舱平台
座舱域控
座舱SoC
8295座舱域控制器拆解
车控域
车身(区)域控研究
汽车VCU研究
电驱动和动力域控制器
 
通信/网络域
车内通信芯片
商用车T-Box
无线通讯模组
高精度定位
汽车网关
车载天线
乘用车T-Box
汽车UWB研究
跨域融合
多域计算和区域控制器
 
区域和中央计算
车身(区)域控研究
 
其他芯片
汽车MCU研究
车用RISC-V研究
车载存储芯片
传感器芯片
电源管理芯片
汽车CIS研究
汽车芯片供应链研究
 
   
动力层
动力
混合动力报告
电源管理芯片
800V高压平台
电驱动与动力域研究
IGBT及SiC研究
 
能源
一体化电池
充换电研究
燃料电池
移动充电机器人
固态电池
数字电源及芯片
其他
热管理系统
一体化压铸
汽车微电机及运动机构研究
 
   
机械层
底盘/执行
乘用车底盘域控
电控悬架
线控制动&AEB
智能转向关键组件
转向系统
商用车智能底盘
滑板底盘研究
数字底盘研究
AI机器人
AI机器人
PBV及汽车机器人
无人配送车
移动充电机器人
飞行汽车
具身智能研究
 
   
其他宏观
车型平台
车企模块化平台
主机厂车型规划研究
出海
主机厂海外布局
座舱出海研究
政策、标准、准入
智驾法规和汽车出海
自动驾驶标准与认证
其他
新技术应用趋势
24-25年新车及供应商趋势
2025Q1新车配置分析
 
 
微信视频号:sph0RgSyDYV47z6
快手号:4874645212
抖音号:dy0so323fq2w
小红书号:95619019828
参考文献链接
posted @ 2025-07-15 05:45  吴建明wujianming  阅读(351)  评论(0)    收藏  举报