rk3588的ai功能和deepseek

参考:

https://developer.baidu.com/article/detail.html?id=3559658

https://zhuanlan.zhihu.com/p/5235787655

 

rk3588的ai功能

该型号cpu支持 6TOPS NPU、Mali-G610 MP4 GPU。

支持针对rk系列开发的RKNN框架,能够完成模型转换,量化,推理,性能评估,内存评估和量化分析功能。

 

TOPS是Tera Operations Per Second的缩写,1TOPS代表处理器每秒钟可进行一万亿次(10^12)操作。

GOPS(Giga Operations Per Second),MOPS(Million Operation Per Second)算力单位。1GOPS代表处理器每秒钟可进行十亿次(109)操作,1MOPS代表处理器每秒钟可进行一百万次(106)操作。

 

目前在其上面已有模型能够完成的工作有:图像分类(clip),图片语义分割(deeplabv3),文字转换语音(mms_tts),人像分割(ppseg),语音识别(whisper),人脸检测(retinaface),实时目标识别等(ppyoloe)等。

 

并支持 其他框架,如Caffe、TensorFlow、TensorFlow Lite、ONNX、DarkNet、PyTorch产生的模型转换为rknn模型。

 

 

3688:

CPU整体算力可达250K DMIPS。RK3588是93K DMIPS,性能翻了都快三倍

GPU的算力将达1TFlops

NPU性能将达到16TOPS

128 位宽 LPDDR5 内存

 支持UFS4.0磁盘性能肯定会迎来暴增

deepseek R1

R1采用三阶段训练策略

  1. 基础阶段:1.2T tokens的多语言文本(中英为主)基于冷启动数据,进行有监督微调
  2. 强化阶段:加入300B tokens的代码/数学专项数据
  3. 对齐阶段:使用RLHF优化10B条人类反馈数据

R1引入多目标奖励模型,同时优化:

  • 事实准确性(0.85权重)
  • 逻辑一致性(0.75权重)
  • 有害内容抑制(0.9权重)

混合专家系统(MoE)通过动态路由机制将输入分配值不同专家子网络。包含128个专家模块,每个模块参数量为2.3B,总参数量达294B(激活参数量37B

通过量化压缩技术(如4bit量化)保持较高精度。

 

R1引入滑动窗口注意力(SWA),将全局注意力分解为局部窗口(512 tokens)和稀疏全局连接,使长文本处理效率提升3倍。

R1微调要点

  • 仅需更新路由网络和领域专家(约12B参数)
  • 使用LoRA技术可将显存占用从120GB降至32GB

 

deepseekV3

V3训练策略

V3则通过连续预训练在2.8T tokens的单一语料上完成训练,数据分布更均匀但缺乏领域强化。

 

V3仅使用单一准确性奖励函数,导致在复杂推理场景下表现较弱。

 

DeepSeek-V3采用稠密Transformer架构,参数量固定为67B,通过深度扩展(128层)提升模型容量。

V3则沿用传统多头注意力,通过扩大上下文窗口(32K tokens)提升长文本能力。

V3微调要点

  • 必须全参数微调(67B参数)
  • 建议使用ZeRO-3优化器分阶段训练



posted @ 2025-09-22 11:27  老禾的账本  阅读(42)  评论(0)    收藏  举报