会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
红豆生南国 是很遥远的事情
种豆南山下 github
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
5
6
7
8
9
10
11
12
13
···
32
下一页
2025年7月8日
大模型- GRPO 与 PPO DPO对比--78
摘要: GRPO 组相对策略优化(GRPO) GRPO (Group Relative Policy Optimization) 是 DeepSeek AI 对 PPO 的一种聪明的改进,旨在更加高效,尤其是在复杂的推理任务中。 GRPO 就像是 PPO 的精简版表亲。它保留了 PPO 的核心思想,但去掉了
阅读全文
posted @ 2025-07-08 15:41 jack-chen666
阅读(991)
评论(0)
推荐(0)
2025年7月6日
大模型- 强化学习-贝尔曼方程 -77
摘要: 目录引用null数学解释方程的推导线性代数的视角最优价值函数 V*(s)总结 引用 Https://newfacade.github.io/notes-on-reinforcement-learning/04-bellman.html 帮我用通俗的语言讲解 https://gemini.google
阅读全文
posted @ 2025-07-06 23:46 jack-chen666
阅读(81)
评论(0)
推荐(0)
2025年7月4日
大模型- 强化学习-两种核心的方法 -76
摘要: Https://newfacade.github.io/notes-on-reinforcement-learning/03-approach.html 通俗易懂的讲解 这个网页主要介绍了在强化学习(Reinforcement Learning, RL)中,我们用什么方法来“训练”一个智能体(比如一
阅读全文
posted @ 2025-07-04 09:05 jack-chen666
阅读(26)
评论(0)
推荐(0)
2025年7月3日
大模型- PPO大语言模型(LLM)对齐的强化学习算法 -75
摘要: 参考链接 故事设定:训练一名弓箭手 智能体 (Agent):一名弓箭手。 策略 (Policy):弓箭手在看到目标距离、风速等情况后,决定“拉弓的力度”和“瞄准的角度”的策略。 动作 (Action):具体的一次拉弓和瞄准。 奖励 (Reward):箭命中靶心(高奖励),命中靶子(低奖励),脱靶(负
阅读全文
posted @ 2025-07-03 09:49 jack-chen666
阅读(143)
评论(0)
推荐(0)
2025年6月30日
大模型- PPO、DPO 和 KTO 这三种用于大语言模型(LLM)对齐的强化学习算法 -74
摘要: 目录核心思想与类比关键区别对比表详细解释PPODPOKTO如何选择样本数据集格式 核心思想与类比 KTO (Kahneman-Tversky Optimization)。这是一个较新的算法,其命名源于诺贝尔经济学奖得主丹尼尔·卡尼曼和阿莫斯·特沃斯基的前景理论。在LLM对齐的语境下,大家讨论的基本上
阅读全文
posted @ 2025-06-30 10:35 jack-chen666
阅读(738)
评论(0)
推荐(0)
2025年6月24日
大模型-llamafactory ppo训练模型,不使用llm作为reward模型 -73
摘要: 目录LlamaFactory PPO 训练:拥抱自定义奖励函数,告别LLM-as-a-Judge实战演练 LlamaFactory PPO 训练:拥抱自定义奖励函数,告别LLM-as-a-Judge 在利用 LlamaFactory 进行近端策略优化(PPO)训练时,您完全可以摆脱对大型语言模型(L
阅读全文
posted @ 2025-06-24 09:59 jack-chen666
阅读(627)
评论(1)
推荐(0)
大模型-vllm 启动参数 --chat-template -72
摘要: 关于 vLLM "--chat-template" 参数的非常常见且重要的问题。简单来说,这个参数决定了 vLLM 如何将多轮对话(系统、用户、助手消息)格式化成一个单一的字符串,以便模型能够正确理解。 首选:不设置,让 vLLM 自动加载。 对于大多数发布在 Hugging Face Hub 上的
阅读全文
posted @ 2025-06-24 09:44 jack-chen666
阅读(918)
评论(0)
推荐(0)
2025年6月23日
大模型-强化学习Belman方程-71
摘要: 第一步:强化学习到底是什么? (The Big Picture) 想象一下你正在训练一只小狗。这个过程和强化学习非常相似: 智能体 (Agent):你的小狗。在RL中,这就是我们试图训练的模型或算法。 环境 (Environment):你所在的房间或公园。在RL中,这是智能体所处的外部世界。 状态
阅读全文
posted @ 2025-06-23 09:16 jack-chen666
阅读(41)
评论(0)
推荐(0)
2025年6月22日
大模型-Param.data.copy_详细解读-70
摘要: 目录param.data.copy_ 这个用法在 PyTorch 中的含义和功能。常见使用场景: param.data.copy_ 这个用法在 PyTorch 中的含义和功能。 首先,直接回答你的问题:是的,param.data (作为一个张量) 是有 copy_ 这个方法的。 接下来,我们详细解释
阅读全文
posted @ 2025-06-22 23:48 jack-chen666
阅读(53)
评论(0)
推荐(0)
2025年6月19日
大模型-qwen3 RoPE旋转位置编码详细解读-69
摘要: 目录第一部分:位置编码技术发展简史阶段一:绝对位置编码 (Absolute Positional Encoding)阶段二:相对位置编码 (Relative Positional Encoding)阶段三:旋转位置编码 (Rotary Positional Embedding, RoPE)第二部分:
阅读全文
posted @ 2025-06-19 21:10 jack-chen666
阅读(809)
评论(0)
推荐(0)
上一页
1
···
5
6
7
8
9
10
11
12
13
···
32
下一页
公告