posted @ 2018-10-01 10:35 wzd321 阅读(439) 评论(0) 推荐(0)
摘要:
这种搜索策略是建立一个代理模型,试图从超参数配置中预测我们关心的度量指标. 阅读全文
摘要:
动机: 防止隐层分布多次改变,BN让每个隐层节点的激活输入分布缩小到-1和1之间. 好处: 缩小输入空间,从而降低调参难度;防止梯度爆炸/消失,从而加速网络收敛. BN计算公式: 参数 axis: 整数,指定要规范化的轴,通常为特征轴。例如在进行data_format="channels_first 阅读全文
posted @ 2018-09-29 22:08 wzd321 阅读(1063) 评论(0) 推荐(0)
摘要:
转载:https://blog.csdn.net/niuniuyuh/article/details/76922210 论文:http://pdfs.semanticscholar.org/0d97/ee4888506beb30a3f3b6552d88a9b0ca11f0.pdf CART(Clas 阅读全文
posted @ 2018-09-29 21:51 wzd321 阅读(264) 评论(0) 推荐(0)
摘要:
import numpy as np dt = np.arange(10).reshape(5,2) # ============================================================================= # Out[2]: # array([[0, 1], # [2, 3], # [4, 5], # ... 阅读全文
posted @ 2018-09-28 20:28 wzd321 阅读(875) 评论(0) 推荐(0)
摘要:
import numpy as np a = np.array([1,2,3,np.nan]) a[np.isnan(a) ]=0 def gd(x_start,step,g): """ param x_start:初始化数据点 param step:梯度下降的步长 param g:梯度函数 return :迭代... 阅读全文
posted @ 2018-09-28 16:31 wzd321 阅读(181) 评论(0) 推荐(0)
摘要:
KL散度是两个概率分布P与Q差异的一种方法: 1.离散概率分布KL散度计算公式 2.连续概率分布KL散度计算公式 KL散度可以很好地度量两个分布之间的距离,两个分布越接近,KL散度越小,两个分布越远,KL散度越大。 参考:https://blog.csdn.net/ericcchen/article 阅读全文
posted @ 2018-09-28 15:44 wzd321 阅读(268) 评论(0) 推荐(0)
摘要:
有一个概率密度函数p(x),求解随机变量x基于此概率下某个函数f(x)的期望,表示如下: 如果概率分布形式比较简单的话,我们可以采用解析的方法: 如果f(x)过于复杂的话,直接求解就非常复杂,我们采用蒙特卡洛的方法。根据大数定理,当采样数量足够大的话,采样样本可以无限近似地表示原分布,我们可以得到: 阅读全文
posted @ 2018-09-28 12:08 wzd321 阅读(5109) 评论(0) 推荐(0)
摘要:
伯努利分布是一个离散型机率分布。试验成功,随机变量取值为1;试验失败,随机变量取值为0。成功机率为p,失败机率为q =1-p,N次试验后,成功期望为N*p,方差为N*p*(1-p) ,所以伯努利分布又称两点分布。 观察到的数据为D1,D2,D3,...,DN,极大似然的目标: 联合分布难计算,我们因 阅读全文
posted @ 2018-09-27 22:13 wzd321 阅读(3463) 评论(0) 推荐(0)
浙公网安备 33010602011771号