摘要: DeepSeek 这次的重点不在模型 V3.1,而是在DeepSeek在其官宣发布DeepSeek-V3.1的文章中提到,DeepSeek-V3.1使用了UE8MO FP8 Scale的参数精度。另外,V3.1对分词器及chat template进行了较大调整,与DeepSeek-V3存在明显差异。 阅读全文
posted @ 2025-08-24 18:55 张善友 阅读(1730) 评论(3) 推荐(9)