数据的中心化、标准化
一、中心化
数据的中心化: 所有数据减去平均数,该组数据平均值为0。
> dat <- c(3, 6, 4, 8) ## 测试数据 > dat [1] 3 6 4 8 > mean(dat) ## 平均值 [1] 5.2 > dat - mean(dat) ## 中心化, 所有项减去平均值 [1] -2.25 0.75 -1.25 2.75 > scale(dat, center = T, scale = F) ## scale函数验证 [,1] [1,] -2.25 [2,] 0.75 [3,] -1.25 [4,] 2.75 attr(,"scaled:center") [1] 5.2
二、标准化
基本原理:数值减去平均值,再除以其标准差,得到均值为0,标准差为1的服从标准正态分布的数据。
> dat <- c(3, 6, 4, 8) ## 测试数据 > dat [1] 3 6 4 8 > mean(dat) ## 平均值 [1] 5.2 > sd(dat) ## 标准差 [1] 2.2 > (dat - mean(dat))/sd(dat) ## 所有项减去平均值,然后除以标准差 [1] -1.01 0.34 -0.56 1.24 > scale(dat, center = T, scale = T) ## scale函数验证 [,1] [1,] -1.01 [2,] 0.34 [3,] -0.56 [4,] 1.24 attr(,"scaled:center") [1] 5.2 attr(,"scaled:scale") [1] 2.2

浙公网安备 33010602011771号