2025 年 7月 18 日随笔档案 - jack-chen666

2025年7月18日

摘要： from dataclasses import dataclass import gymnasium as gym import numpy as np import torch import torch.nn as nn import torch.optim as optim from torch 阅读全文

posted @ 2025-07-18 17:11 jack-chen666 阅读(29) 评论(0) 推荐(0)

大模型- 强化学习-TRL中的PPO代码--93

摘要：目录参考当语言模型遇到强化学习PPO 在 trl 中的工作流程与核心公式4. 代码实现解读总结参考 https://newfacade.github.io/notes-on-reinforcement-learning/17-ppo-trl.html https://gemini.google.c 阅读全文

posted @ 2025-07-18 11:42 jack-chen666 阅读(374) 评论(0) 推荐(0)

红豆生南国是很遥远的事情

种豆南山下 github

公告

红豆生南国 是很遥远的事情

种豆南山下 github

公告

红豆生南国是很遥远的事情