上一页 1 2 3 4 5 6 7 8 9 ··· 19 下一页
摘要: 目录R1-Omni: Explainable Omni-Multimodal Emotion Recognition with Reinforcement LearningTL;DRMethodVerifiable RewardRLVRExperiment总结与思考相关链接 R1-Omni: Exp 阅读全文
posted @ 2025-07-15 21:28 fariver 阅读(62) 评论(0) 推荐(0)
摘要: 目录DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement LearningTL;DRMethodExperiment总结与思考相关链接 DeepSeek-R1: Incentivizing Reasonin 阅读全文
posted @ 2025-07-15 20:28 fariver 阅读(59) 评论(0) 推荐(0)
摘要: 目录DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language ModelsTL;DRMethodData CollectionDeepSeekMath-Base 7B训练与评估​Reinforcement 阅读全文
posted @ 2025-07-11 20:08 fariver 阅读(168) 评论(0) 推荐(0)
摘要: 目录Reforce Learning Tutorial课程内容基本概念Policy Gradient - 方案演进Version0Version1Version2Version3Version3.5Version4Policy Gradient - On-policy Vs Off-policyOn 阅读全文
posted @ 2025-07-05 14:17 fariver 阅读(159) 评论(0) 推荐(0)
摘要: 分布式通信原语 Broadcast: 将一张XPU卡数据复制同步到其它所有XPU卡上 Scatter: 将一张XPU卡数据切片分发到其它所有XPU卡上 Reduce:接收其它所有XPU卡上数据,通过某种操作(Sum/Mean/Max)之后,最终放到某个XPU卡上 Gather: 接受其它所有XPU卡 阅读全文
posted @ 2025-07-02 20:21 fariver 阅读(45) 评论(0) 推荐(0)
摘要: 背景 大语言模型(LLM)参数量已突破万亿,单次训练计算量达千亿亿次浮点运算(ExaFLOPs)。单卡GPU显存上限仅80GB(A100),算力峰值312 TFLOPS,显存墙与通信墙成为千卡/万卡分布式训练的核心瓶颈。 前置知识 1. DDP训练过程 ​​数据切片​​:全局Batch拆分为子Bat 阅读全文
posted @ 2025-07-02 20:19 fariver 阅读(214) 评论(0) 推荐(0)
摘要: 创建$HOME/.tmux.conf文件,参考以下内容配置 bind h select-pane -L bind j select-pane -D bind k select-pane -U bind l select-pane -R setw -g mode-keys vi bind '"' sp 阅读全文
posted @ 2025-06-30 13:52 fariver 阅读(13) 评论(0) 推荐(0)
摘要: 目录AWQ: ACTIVATION-AWARE WEIGHT QUANTIZATION FOR ON-DEVICE LLM COMPRESSION AND ACCELERATIONTL;DRMethodStory为什么用weights quantized-only的方案?如何挑选import wei 阅读全文
posted @ 2025-06-21 17:17 fariver 阅读(244) 评论(0) 推荐(0)
摘要: 目录名称TL;DRMethodZeRO-DPZeRO-R背景优化策略小结Experiment效果可视化总结与思考相关链接 名称 link 时间:19.10 单位:microsoft 作者相关工作:https://i.cnblogs.com/posts/edit;postId=18916963 dee 阅读全文
posted @ 2025-06-21 14:36 fariver 阅读(63) 评论(0) 推荐(0)
摘要: 快捷键配置 workbench.view.explorer -> cmd + E workbench.action.previousEditor -> shift+ h workbench.action.nextEditor -> shift + l go to definition -> ctr+ 阅读全文
posted @ 2025-06-21 11:27 fariver 阅读(21) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 8 9 ··· 19 下一页