DeepSeek 相关知识学习和整理ing...

 


【硬件相关】

HBM3e:HBM3e是HBM(高带宽内存)技术的迭代升级版本,属于HBM3的扩展。它采用3D堆叠封装技术,将多个DRAM芯片垂直堆叠,通过硅互连通道传输数据,大幅提升带宽和容量,同时降低功耗。

迭代背景:HBM系列从第一代(HBM)到第五代(HBM3e)持续升级,每一代都提高了处理速度和性能。HBM3e于2022年后逐步进入市场,成为当前最先进的内存技术

 

参考资料:什么是HBM3E内存?Rambus HBM3E/3内存控制器内核

 

 

【模型相关】

111

 

【使用相关】

使用建议

我们建议在使用 DeepSeek-R1 系列模型(包括基准测试)时遵循以下配置,以实现预期性能:

  1. 将温度设置在 0.5-0.7 范围内(建议为 0.6),以防止无休止的重复或不连贯的输出。
  2. 避免添加系统提示;所有说明都应包含在用户提示中。
  3. 对于数学问题,建议在提示中包含一个指令,例如:“请逐步推理,并将您的最终答案放在 \boxed{} 内。”
  4. 在评估模型性能时,建议进行多次测试并取平均值。

此外,我们观察到 DeepSeek-R1 系列模型在响应某些查询时倾向于绕过思维模式(即输出“<think>\n\n</think>”),这可能会对模型的性能产生不利影响。 为了确保模型进行彻底的推理,我们建议强制模型在每次输出开始时以“<think>\n”作为响应。

参考资料:HuggingFace

 

posted @ 2025-02-13 09:42  Cong0ks  阅读(61)  评论(0)    收藏  举报