03 2021 档案
摘要:单臂摆是强化学习的一个经典模型,本文采用了4种不同的算法来解决这个问题,使用Pytorch实现。 以下是老版本,2022年9月14日新增Dueling DQN, Actor-Critic算法, SAC,更新了PPO,DDPG算法,在文末。 DQN: 参考: 算法思想: https://mofanpy
阅读全文
摘要:参考:https://zhuanlan.zhihu.com/p/129247756 论文原文:https://arxiv.org/pdf/2003.13590.pdf 一、遇到的挑战: 1、复杂的计分系统。每一局麻将游戏包含很多回合,而最后的排名是由这些回合的总分决定的(当玩家在前面的回合产生了巨大
阅读全文
摘要:参考莫烦python: cnn: import torch import torch.utils.data as Data import matplotlib.pyplot as plt import torch.nn.functional as F import torch.nn as nn im
阅读全文