随笔分类 -  机器学习理论

摘要:关于卡方分箱,网上有很多文章,但几乎没有文章介绍分箱时相邻区间卡方值计算的方法,而本文在介绍卡方分箱的同时,重点介绍了相邻区间卡方值的计算方法。通过本文,希望大家能对卡方分箱有清楚透彻的认识。 分箱是什么 分箱是将连续的变量离散化,将多状态的离散变量合并成少状态。这里要注意的是,不仅仅是连续变量要分 阅读全文
posted @ 2019-08-24 17:53 likedata 阅读(2086) 评论(0) 推荐(0)
摘要:我们在推导机器学习公式时,常常会用到各种各样的对数,但是奇怪的是--我们往往会忽略对数的底数是谁,不管是2,e,10等。 原因在于,lnx,log2x,log10x,之间是存在常数倍关系。 回顾学过的数学知识,换底公式如下: 则有 故我们不用纠结对数公式中底数究竟是谁,常数倍关系往往对最后结果不产生 阅读全文
posted @ 2019-08-24 17:52 likedata 阅读(3634) 评论(0) 推荐(0)
摘要:显著性水平α与P值: 1、显著性水平是估计总体参数落在某一区间内,可能犯错误的概率,用α表示。 显著性是对差异的程度而言的,是在进行假设检验前确定的一个可允许作为判断界限的小概率标准。 2、P值是用来判定假设检验结果的一个参数,也可以根据不同的分布使用分布的拒绝域进行比较。 P值(P value)就 阅读全文
posted @ 2019-07-29 17:25 likedata 阅读(1436) 评论(0) 推荐(0)
摘要:独立和互斥的区别在此省略,比较好理解。 首先我们看协方差的定义: Cov(X, Y) = E{[X - E(X)][Y - E(Y)]}. 协方差的性质有: Cov(X, Y) = Cov(Y, X) Cov(aX+b, cY+d) = acCov(X, Y) Cov(X1+X2, Y) = Cov 阅读全文
posted @ 2019-07-03 16:51 likedata 阅读(5228) 评论(0) 推荐(0)