摘要:
from dataclasses import dataclass import gymnasium as gym import numpy as np import torch import torch.nn as nn import torch.optim as optim from torch 阅读全文
posted @ 2025-07-18 17:11
jack-chen666
阅读(29)
评论(0)
推荐(0)
摘要:
目录参考当语言模型遇到强化学习PPO 在 trl 中的工作流程与核心公式4. 代码实现解读总结 参考 https://newfacade.github.io/notes-on-reinforcement-learning/17-ppo-trl.html https://gemini.google.c 阅读全文
posted @ 2025-07-18 11:42
jack-chen666
阅读(374)
评论(0)
推荐(0)

浙公网安备 33010602011771号