摘要: import torch a = torch.ones(5,3) #5*3的元素全为1的矩阵 print(a) b = torch.rand((5,3)) #5*3的元素为0-1之间的随机数的矩阵 print(b) c = torch.tensor([[1,2,3], [4,5,6], [7,8,9 阅读全文
posted @ 2020-04-19 10:01 地球上最后一个直男 阅读(4894) 评论(0) 推荐(0)
摘要: 思想:当前状态的价值和下一步的价值和当前的奖励有关。价值函数分解为当前奖励和下一步价值函数两部分,类似于递归的思想 例如在上面这个图中。vπ(s)是状态s的价值函数。π(a|s)是状态s下执行行为a的概率,Rsa是对应的即时奖励,是在状态S下执行了动作a之后转移到状态S′的概率。 上面这个图就是实际 阅读全文
posted @ 2020-04-02 11:15 地球上最后一个直男 阅读(1110) 评论(0) 推荐(0)
摘要: 马尔科夫决策要求 1.能够检测到理想状态 2.可以多次尝试采取不同动作 3.系统的下一个状态只与当前状态有关,而与之前的状态无关。在决策过程中还和当前采取的动作有关。 马尔科夫决策过程与5个因素有关: S:表示状态集 A:表示一组动作 P:表示状态转移概率。Psa表示在当前状态S下,执行动作a,转移 阅读全文
posted @ 2020-04-02 10:57 地球上最后一个直男 阅读(411) 评论(0) 推荐(0)
摘要: 智能体(agent) 例如alpha-go中的棋盘,用于产生动作的主体就是智能体。 状态(state) l例如当前棋盘中的局势就是状态,表示的是主体执行动作之前需要考虑的外部环境 动作(action) 例如下围棋中的落子,表示智能体在某个状态下采取的一个行为 奖励(reward) 例如当某一步有利于 阅读全文
posted @ 2020-04-02 00:05 地球上最后一个直男 阅读(208) 评论(0) 推荐(0)
摘要: import tensorflow as tf import tensorflow.keras as keras import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn.preproces 阅读全文
posted @ 2020-03-27 09:20 地球上最后一个直男 阅读(1978) 评论(0) 推荐(0)
摘要: import tensorflow as tf import tensorflow.keras as keras import matplotlib.pyplot as plt import pandas as pd #加载数据 fasion_mnist = keras.datasets.fashi 阅读全文
posted @ 2020-03-26 12:38 地球上最后一个直男 阅读(421) 评论(0) 推荐(0)
摘要: import tensorflow as tf import matplotlib.pyplot as plt from tensorflow import keras fashion_mnist = keras.datasets.fashion_mnist (train_X, train_y), 阅读全文
posted @ 2020-03-26 11:36 地球上最后一个直男 阅读(1733) 评论(0) 推荐(0)
摘要: int, double, float等是基本类型,在函数传递中直接传递的是值,不涉及到堆内存 数组类型,String类型,类类型等是引用类型,传递的是栈内存中的地址值 String没法修改 阅读全文
posted @ 2020-03-22 16:07 地球上最后一个直男 阅读(228) 评论(0) 推荐(0)
摘要: 1.psvm+enter键可以快速生成main函数 2.sout+enter键快速生成输出语句 3.ctrl键+‘/’:单行注释 4.ctrl键+shift键+‘/’:多行注释 5.ctrl键+alt键+空格键:补全提示 阅读全文
posted @ 2020-03-22 09:14 地球上最后一个直男 阅读(162) 评论(0) 推荐(0)
摘要: https://www.cnblogs.com/marsggbo/p/10401215.html 阅读全文
posted @ 2020-02-21 21:42 地球上最后一个直男 阅读(1603) 评论(0) 推荐(0)