协方差矩阵

统计学的基本概念（原文链接）

一、

　　有n个样本的集合: X = {X1，X2，...,Xn}

　　均值：

　　标准差：

　　方差：

　　　　有两个数据集,数据集1，X = [0,8,12,20];数据集2，Y = [8,9,11,12]。两者的均值一样都为10。数据集1的标准差8.3，数据集2的标准差为1.8，因为后者的数据分布比较集中，标准差描述的是这种散布度。之所以除以n-1而不是n，是因为这样使我们以较小的样本集更好的逼近总体的标准差，即统计上的无偏估计。方差是标准差的平方。

二、为什么需要协方差

1、

　　标准差和方差一般是用来描述一维数据的，但现实生活中遇到的通常是含有多维数据的数据集，最简单的是大家上学时要统计多个学科的考试成绩。另外，我们想要知道两件事之间的关联程度，例如，一个男孩子的猥琐成都和他受女孩子欢迎程度是否存在联系。协方差就是解决这样一个问题，度量两个随机变量关系的统计量。

　　仿照方差的定义，度量各个维度偏离其均值的程度