2025 年 11月 28 日随笔档案 - Java后端的Ai之路

什么DeekSpeek居然自己会学习？

摘要： 🌊 SFT（监督微调）：像"老师教孩子游泳" 想象一下，你是一位游泳教练，正在教一个孩子学游泳：你先站在泳池边，示范标准动作："手臂这样划水，腿这样蹬，眼睛看前方" 你让孩子照着你的示范做，然后手把手纠正： "手抬高一点，这样划水更有效" "腿蹬得再用力一点" 你直接告诉孩子"标准答案"，不是让阅读全文

posted @ 2025-11-28 17:07 Java后端的Ai之路阅读(40) 评论(0) 推荐(0)

DeepSeek的创新-DeepSeek-MoE大揭秘

摘要： DeepSeek-MoE：医院里的"智能分诊系统"大揭秘想象一下，你走进一家超级智能医院，这里有1000位医生，但不是所有医生都懂所有疾病术语说明图：传统医院（Dense模型）：你生病了，不管是什么病，都必须找同一位全科医生这位医生必须懂所有疾病，所以要学很多东西，但可能不是特别精通你得阅读全文

posted @ 2025-11-28 16:12 Java后端的Ai之路阅读(22) 评论(0) 推荐(0)

DeepSeek的创新-MLA详解

摘要：更生动的MLA工作原理：超市购物的"智能导购"比喻想象一下，你走进一个超级大超市，想买一包特定的薯片。但这个超市有1000个货架，每个货架上有100种零食，你完全记不住每种零食的具体位置。术语说明传统方法（MHA）：死记硬背你必须记住："乐事薯片在3号货架第5层第3个位置" 如果你要买"上好阅读全文

posted @ 2025-11-28 15:16 Java后端的Ai之路阅读(15) 评论(0) 推荐(0)

什么时候用 DeepSeek-V3-0324，什么时候用 DeepSeek-R1？

摘要： Thinking：当我们写程序的时候，什么时候用 DeepSeek-V3-0324，什么时候用 DeepSeek-R1？ V3-0324：日常编程、快速开发、前端代码生成、常规脚本任务。 R1：数学密集型计算、复杂算法、代码逻辑深度优化、需要推理过程的任务。 => 更擅长复杂算法实现，能优化逻辑并减阅读全文

posted @ 2025-11-28 14:05 Java后端的Ai之路阅读(24) 评论(0) 推荐(0)

javatoai

公告

2025年11月28日

什么DeekSpeek居然自己会学习？

DeepSeek的创新-DeepSeek-MoE大揭秘

DeepSeek的创新-MLA详解

什么时候用 DeepSeek-V3-0324，什么时候用 DeepSeek-R1？