rk3588的ai功能和deepseek

参考：

https://developer.baidu.com/article/detail.html?id=3559658

https://zhuanlan.zhihu.com/p/5235787655

rk3588的ai功能

该型号cpu支持 6TOPS NPU、Mali-G610 MP4 GPU。

支持针对rk系列开发的RKNN框架，能够完成模型转换，量化，推理，性能评估，内存评估和量化分析功能。

TOPS是Tera Operations Per Second的缩写，1TOPS代表处理器每秒钟可进行一万亿次（10^12）操作。

GOPS（Giga Operations Per Second），MOPS（Million Operation Per Second）算力单位。1GOPS代表处理器每秒钟可进行十亿次（109）操作，1MOPS代表处理器每秒钟可进行一百万次（106）操作。

目前在其上面已有模型能够完成的工作有：图像分类（clip），图片语义分割（deeplabv3），文字转换语音（mms_tts），人像分割(ppseg)，语音识别(whisper)，人脸检测(retinaface)，实时目标识别等(ppyoloe)等。

并支持其他框架，如Caffe、TensorFlow、TensorFlow Lite、ONNX、DarkNet、PyTorch产生的模型转换为rknn模型。

3688：

CPU整体算力可达250K DMIPS。RK3588是93K DMIPS，性能翻了都快三倍

GPU的算力将达1TFlops

NPU性能将达到16TOPS

128 位宽 LPDDR5 内存

支持UFS4.0磁盘性能肯定会迎来暴增

deepseek R1

R1采用三阶段训练策略：

R1引入多目标奖励模型，同时优化：

混合专家系统（MoE）通过动态路由机制将输入分配值不同专家子网络。包含128个专家模块，每个模块参数量为2.3B，总参数量达294B（激活参数量37B

通过量化压缩技术（如4bit量化）保持较高精度。

R1引入滑动窗口注意力（SWA），将全局注意力分解为局部窗口（512 tokens）和稀疏全局连接，使长文本处理效率提升3倍。

R1微调要点：

deepseekV3

V3训练策略

V3则通过连续预训练在2.8T tokens的单一语料上完成训练，数据分布更均匀但缺乏领域强化。

V3仅使用单一准确性奖励函数，导致在复杂推理场景下表现较弱。

DeepSeek-V3采用稠密Transformer架构，参数量固定为67B，通过深度扩展（128层）提升模型容量。

V3则沿用传统多头注意力，通过扩大上下文窗口（32K tokens）提升长文本能力。

V3微调要点：

posted @ 2025-09-22 11:27 老禾的账本阅读(62) 评论(0) 收藏举报

刷新页面返回顶部