随笔分类 -  R for statistics analysis and data mining

摘要:1.概述 一般线性模型被解释变量是一个服从正态分布的连续型数值变量。若研究它如何受多个数值型解释变量的影响,则选择的回归模型是一元或多元回归模型;若研究它如何受到离散型数值变量以及分类型变量的影响,则选择带有虚拟变量的回归模型 广义线性模型的被解释变量是0-1变量。若研究它如何受多个解释变量的影响, 阅读全文
posted @ 2017-09-22 15:52 coderevelyn 阅读(2198) 评论(0) 推荐(0)
摘要:1.数据对象 1.1结构 vector。具有相同类型的数据的集合,默认为列向量。Factor也是特殊向量。 matrix。组织多个具有相同类型的向量。列为变量(实例),行为观测(因子) array数组。多张二维表的集合 dataframe.与矩阵类似,但是储存类型不同的变量。 list列表。多个向量 阅读全文
posted @ 2017-09-19 14:33 coderevelyn 阅读(505) 评论(0) 推荐(0)
摘要:方差分析(Analysis of Variance,简称ANOVA),又称“ 变异数分析”,是R.A.Fisher发明的,用于两个及两个以上 样本均数差别的 显著性检验。 由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的 阅读全文
posted @ 2017-09-18 17:51 coderevelyn 阅读(4933) 评论(0) 推荐(0)
摘要:1.两独样本参数的非参数检验 1.1.Welcoxon秩和检验 先将两样本看成是单一样本(混合样本)然后由小到大排列观察值统一编秩。如果原假设两个独立样本来自相同的总体为真,那么秩将大约均匀分布在两个样本中,即小的、中等的、大的秩值应该大约被均匀分在两个样本中。如果备选假设两个独立样本来自不相同的总 阅读全文
posted @ 2017-09-18 00:06 coderevelyn 阅读(10916) 评论(0) 推荐(0)
摘要:1.由于抽样的随机性,样本均值在不同总体上的差距很可能是由抽样误差引起的,而这种差距不被认为具有统计上的显著性。 2.反之,若分析发现样本均值在不同总体上差距较大,但不是由抽样误差引起的,则数值型变量在不同总体上的分布参数存在显著差异。 检验两个样本上的均值差是否统计显著的方法:参数检验&非参检验, 阅读全文
posted @ 2017-09-17 11:06 coderevelyn 阅读(13250) 评论(0) 推荐(0)