jack-chen666 - 博客园

2025年7月8日

摘要： GRPO 组相对策略优化（GRPO） GRPO (Group Relative Policy Optimization) 是 DeepSeek AI 对 PPO 的一种聪明的改进，旨在更加高效，尤其是在复杂的推理任务中。 GRPO 就像是 PPO 的精简版表亲。它保留了 PPO 的核心思想，但去掉了阅读全文

posted @ 2025-07-08 15:41 jack-chen666 阅读(991) 评论(0) 推荐(0)

2025年7月6日

大模型- 强化学习-贝尔曼方程 -77

摘要：目录引用null数学解释方程的推导线性代数的视角最优价值函数 V*(s)总结引用 Https://newfacade.github.io/notes-on-reinforcement-learning/04-bellman.html 帮我用通俗的语言讲解 https://gemini.google 阅读全文

posted @ 2025-07-06 23:46 jack-chen666 阅读(81) 评论(0) 推荐(0)

2025年7月4日

大模型- 强化学习-两种核心的方法 -76

摘要： Https://newfacade.github.io/notes-on-reinforcement-learning/03-approach.html 通俗易懂的讲解这个网页主要介绍了在强化学习（Reinforcement Learning, RL）中，我们用什么方法来“训练”一个智能体（比如一阅读全文

posted @ 2025-07-04 09:05 jack-chen666 阅读(26) 评论(0) 推荐(0)

2025年7月3日

大模型- PPO大语言模型（LLM）对齐的强化学习算法 -75

摘要：参考链接故事设定：训练一名弓箭手智能体 (Agent)：一名弓箭手。策略 (Policy)：弓箭手在看到目标距离、风速等情况后，决定“拉弓的力度”和“瞄准的角度”的策略。动作 (Action)：具体的一次拉弓和瞄准。奖励 (Reward)：箭命中靶心（高奖励），命中靶子（低奖励），脱靶（负阅读全文

posted @ 2025-07-03 09:49 jack-chen666 阅读(143) 评论(0) 推荐(0)

2025年6月30日

大模型- PPO、DPO 和 KTO 这三种用于大语言模型（LLM）对齐的强化学习算法 -74

摘要：目录核心思想与类比关键区别对比表详细解释PPODPOKTO如何选择样本数据集格式核心思想与类比 KTO (Kahneman-Tversky Optimization)。这是一个较新的算法，其命名源于诺贝尔经济学奖得主丹尼尔·卡尼曼和阿莫斯·特沃斯基的前景理论。在LLM对齐的语境下，大家讨论的基本上阅读全文

posted @ 2025-06-30 10:35 jack-chen666 阅读(738) 评论(0) 推荐(0)

2025年6月24日

大模型-llamafactory ppo训练模型，不使用llm作为reward模型 -73

摘要：目录LlamaFactory PPO 训练：拥抱自定义奖励函数，告别LLM-as-a-Judge实战演练 LlamaFactory PPO 训练：拥抱自定义奖励函数，告别LLM-as-a-Judge 在利用 LlamaFactory 进行近端策略优化（PPO）训练时，您完全可以摆脱对大型语言模型（L 阅读全文

posted @ 2025-06-24 09:59 jack-chen666 阅读(627) 评论(1) 推荐(0)

大模型-vllm 启动参数 --chat-template -72

摘要：关于 vLLM "--chat-template" 参数的非常常见且重要的问题。简单来说，这个参数决定了 vLLM 如何将多轮对话（系统、用户、助手消息）格式化成一个单一的字符串，以便模型能够正确理解。首选：不设置，让 vLLM 自动加载。对于大多数发布在 Hugging Face Hub 上的阅读全文

posted @ 2025-06-24 09:44 jack-chen666 阅读(918) 评论(0) 推荐(0)

2025年6月23日

大模型-强化学习Belman方程-71

摘要：第一步：强化学习到底是什么？ (The Big Picture) 想象一下你正在训练一只小狗。这个过程和强化学习非常相似：智能体 (Agent)：你的小狗。在RL中，这就是我们试图训练的模型或算法。环境 (Environment)：你所在的房间或公园。在RL中，这是智能体所处的外部世界。状态阅读全文

posted @ 2025-06-23 09:16 jack-chen666 阅读(41) 评论(0) 推荐(0)

2025年6月22日

大模型-Param.data.copy_详细解读-70

摘要：目录param.data.copy_ 这个用法在 PyTorch 中的含义和功能。常见使用场景： param.data.copy_ 这个用法在 PyTorch 中的含义和功能。首先，直接回答你的问题：是的，param.data (作为一个张量) 是有 copy_ 这个方法的。接下来，我们详细解释阅读全文

posted @ 2025-06-22 23:48 jack-chen666 阅读(53) 评论(0) 推荐(0)

2025年6月19日

大模型-qwen3 RoPE旋转位置编码详细解读-69

摘要：目录第一部分：位置编码技术发展简史阶段一：绝对位置编码 (Absolute Positional Encoding)阶段二：相对位置编码 (Relative Positional Encoding)阶段三：旋转位置编码 (Rotary Positional Embedding, RoPE)第二部分：阅读全文

posted @ 2025-06-19 21:10 jack-chen666 阅读(809) 评论(0) 推荐(0)

红豆生南国是很遥远的事情

种豆南山下 github

公告

红豆生南国 是很遥远的事情

种豆南山下 github

公告

红豆生南国是很遥远的事情