摘要: 强化学习中的智能体基于目标的不同分为以下几类: Policy-Based(基于策略的智能体) 这种智能体的目标是直接近似策略(policy),即在给定状态下选择动作的概率分布。 它们通常通过优化策略来最大化累积奖励。 示例:策略梯度方法(Policy Gradient Methods)。 Value 阅读全文
posted @ 2024-11-28 19:43 lovelyBug 阅读(188) 评论(0) 推荐(0)
摘要: 使用cuda加速 ffmpeg -framerate 1 -loop 1 -i example.jpg -i example.mp3 -vf format=yuv420p -r 10 -c:v h264_nvenc -b:a 320k -shortest -movflags +faststart v 阅读全文
posted @ 2022-05-26 11:10 lovelyBug 阅读(1129) 评论(0) 推荐(0)