偏相关分析的基本概念
简单相关分析计算两个变量间的相关系数,分析两个变量间线性关系的程度。在实际中往往因为第三个变量的作用,使相关系数不能真正反映两个变量真实线性程度。
多个相关变量间的关系是较为复杂的,任何两个变量间常常存在不同程度的简单相关关系,但是这种相关关系又包含其他变量的影响。
因此简单相关分析即线性相关分析没有考虑其他变量对这两个变量的影响,简单相关分析实际上并不能真实反映两个相关变量间的相关关系。而只有消除了其他变量的影响之后,研究两个变量间的相关性,才能真实地反映这两个变量间相关的性质与密切程度。偏相关分析就是固定其他变量不变而研究某两个变量间相关性的统计分析方法。
例如,身高、体重与肺活量之间的关系如果使用Pearson相关分析计算其相关系数,可以得出肺活量与身高和体重均存在较强的线性关系。但实际上,如果对体重相同的人,分析身高和肺活量,是否身高值越大,肺活量也越大呢?
结论是否定的,正是因为身高与体重有着线性关系,体重与肺活量存在线性关系,因此,得出身高与肺活量之间存在着较强的线性关系的错误结论。偏相关分析的任务就是在形容两个变量之间的线性相关关系时控制可能对其产生影响的变量。
偏相关系数
偏相关系数(Partial Correlation Coefficient)是指在相关分析中,在消除其他变量影响的条件下,所计算的某两变量之间的相关系数。
在多元相关分析中,简单相关系数可能不能够真实地反映出变量x和y之间的相关性,因为变量之间的关系很复杂,它们可能受到不止一个变量的影响。这个时候偏相关系数是一个更好的选择。
在多个相关变量中,其他变量保持固定不变,所研究的两个变量间的线性相关称为偏相关(Partial Correlation)。用来表示两个相关变量偏相关的性质与程度的统计量称为偏相关系数(Partial Correlation Coefficient)。
根据被固定的变量个数可将偏相关系数分级,偏相关系数的级数等于被固定的变量的个数。当研究2个相关变量x 1 、x 2 的关系时,用直线相关系数r 12 表示x 1 与x 2 线性相关的性质程度。此时固定的变量个数为0,所以直线相关系数r 12 又称为零级偏相关系数。
当研究3个相关变量x 1 、x 2 、x 3 的相关时,我们把x 3 保持固定不变,x 1 与x 2 的相关系数称为x 1 与x 2 的偏相关系数,记为r 12.3 ,类似地,还有偏相关系数r 13.2 、r 23.1 。这3个偏相关系数固定的变量个数为1,所以都称为一级偏相关系数。当研究4个相关变量x 1 、x 2 、x 3 、x 4 的相关时,须将其中的2个变量固定不变,研究另外两个变量间的相关。此时只有二级偏相关系数才真实地反映两个相关变量间线性相关的性质与程度。二级偏相关系数共有6个。
一般,当研究m个相关变量x 1 ,x 2 ,x 3 ,…,x m 的相关时,只有将其中的m-2个变量保持固定不变,研究另外两个变量的相关才能真实地反映这两个相关变量间的相关,即此时只有m-2级偏相关系数才真实地反映了这两个相关变量间线性相关的性质与程度。
偏相关系数的计算可以有下面的三种方法。
(1)根据上面的说法,从线性回归的角度计算变量间的偏相关系数,但是这样做很麻烦。
(2)迭代法,可以认为简单相关系数为0阶偏相关系数,任何m阶偏相关都可以通过3个(m-1)阶偏相关系数计算出来。
(3)相关矩阵求逆法,即首先计算出所有变量的相关性矩阵,然后求它的逆矩阵。这样可以求出任何两两变量之间的偏相关系数。
偏相关系数的计算较为复杂,具体计算方法参见统计学相关文献。