随笔分类 -  数据挖掘/机器学习

刚开始写,不成体系,现就这么分类吧!
摘要:常见分布 正态分布: 标准正态分布: 对数正态分布: 均匀分布: 指数分布: 伽玛分布:,其中 分布: 设是来自正态总体的一个样本,则 若是来自标准正态分布的一样样本,则其平方和服从自由度为n的分布。 贝塔分布: t分布:,t分布是正态总体的一个样本的样本均值与样本标准差的特定函数。当自由度较大(如)时,t分布可以用标准正态分布近似。 ... 阅读全文
posted @ 2016-03-25 20:53 SevnChen 阅读(5230) 评论(0) 推荐(0)
摘要:【线性回归】线性回归模型中几个参数的解释 R方 决定系数/拟合优度 类似于一元线性回归,构造决定系数。称为y关于自变量的样本复相关系数。 其中,,有SST=SSR+SSE 总离差平方和记为SST,回归平方和记为SSR,残差平方和为SSE。 由公式可见,SSR是由回归方程确定的,即是可以用自变量x进行解释的波动,而SSE为x之外的未加控制的因素引起的波动。这样,总离差平方和SST中能够由方程... 阅读全文
posted @ 2015-12-22 10:59 SevnChen 阅读(38610) 评论(0) 推荐(0)
摘要:异常点、高杠杆点、强影响点 异常点:残差很大的点;高杠杆点:远离样本空间中心的点;强影响点:改变拟合回归方程特征的点。注意: A点:非异常点、高杠杆点、非强影响点 A点在X空间中距离样本的中心较远,A是个高杠杆点; A点的位置在通过其他点的直线附近,残差很小,对拟合回归方程没有很大的影响,A点不是异... 阅读全文
posted @ 2015-12-06 22:36 SevnChen 阅读(18054) 评论(0) 推荐(1)