方差反映的是 一维数据的离散程度。 样本方差反映的是样本的变异程度。 协方差反映的是两组数据之间变化的方向和程度。 在对一维数据进行离散性分析时,我们可以使用方差来进行描述。当数据扩展到多维时,我们可以分别对其不同方向求取其方差值。 但当我们想要了解两个维度之间的关系时,比如身高和体重之间的关系时,就需要使用协方差了。
度量各个维度偏离其均值的程度。协方差的值如果为正值,则说明两者是正相关的(从协方差可以引出“相关系数”的定义),结果为负值就说明负相关的,如果为0,也是就是统计上说的“相互独立”。
公式解释: 如果有X,Y两个变量。先求x与x均值的差,y与y均值的差, 再求两个差的乘积(这一步是协方差公式的核心,通过正负号判断两个变量的变化方向), 最后求样本空间的期望(消除偶然误差)。所以,实际上,两个随机变量的相关性其实就是他们自由度的夹角。
当两个变量的自由度互相垂直的话,相关性为0, 当两个变量同一个方向的话,影响是叠加态,相关性为1, 当两个变量相反方向的话,是互相抵消的,相关性为-1