摘要: 1 简介 1.1 简介 序贯决策(sequential decision making)。决策与预测任务不同,不同的决策会带来不同的后果。预测仅针对输入,并期望未来与预测一致。 1.2 什么是强化学习 机器与环境交互,实现目标。 在一个环境的一个状态下做出动作决策,并将这个动作作用到环境中。环境将发 阅读全文
posted @ 2025-02-27 19:39 木木ちゃん 阅读(58) 评论(0) 推荐(0)