摘要: 参考链接 故事设定:训练一名弓箭手 智能体 (Agent):一名弓箭手。 策略 (Policy):弓箭手在看到目标距离、风速等情况后,决定“拉弓的力度”和“瞄准的角度”的策略。 动作 (Action):具体的一次拉弓和瞄准。 奖励 (Reward):箭命中靶心(高奖励),命中靶子(低奖励),脱靶(负 阅读全文
posted @ 2025-07-03 09:49 jack-chen666 阅读(201) 评论(0) 推荐(0)