본문 바로가기

Statistical Machine learning

[Statistical ML]공분산(Covariance)과 상관계수(Correlation coefficient)

'통계 기반 머신러닝' Statistical Machine learning 수업을 듣고 정리한 포스팅입니다.※

1.Joint probability distribution 결합 확률 분포

많은 random variables(랜덤 변수)들이 서로 관계가 있을 때, univariate(단일) 변수만으로는 분포도를 표현하지 못한다. Bivariate distribution(이변량 확률분포)는 2개의 확률 변수들을 함께 고려한 분포고, multivaraite distribuion(다변량 확률 분포)는 2개 이상의 확률 변수들을 함께 고려한 것이다.

결합 사건(Joint events) : 동시에 함께 고려하는 여러 확률적 사건들
결합 확률 (Joint probability) : 동시에 2개 이상의 사건이 모두 일어날 확률
결합 확률함수(Joint probability function) : 결합 확률을 함수로 나타낸 것 (따로 다른 포스팅에 포스팅 할 예정이다)

2.Covariance 공분산과 Correlation coefficient 상관계수

공분산은 두 변량(확률변수) 간의 상관성과 의존성,유사성의 방향 및 정도에 대한 척도이다.
다음과 같이 수식으로 표현되며, 두 변량 X, Y가 상관적으로 변화되는 척도를 뜻한다. 두 변량이 각각 평균으로부터 변화하는 방향 및 크기를 고려한 것!

보통 $\mathrm{cov}\left\lbrack X,Y\right\rbrack$ 혹은 $\sigma_{\mathrm{XY}}$로 표기한다.

$\mathrm{cov}\left\lbrack X,Y\right\rbrack =E\left\lbrack \left(X-E\left\lbrack X\right\rbrack \right)\left(Y-E\left\lbrack Y\right\rbrack \right)\right\rbrack =E\left\lbrack \mathrm{XY}\right\rbrack -E\left\lbrack X\right\rbrack E\left\lbrack Y\right\rbrack$

만약 x가 d-dimension 랜덤 벡터일 때, covariance matrix는 아래 그림과 같의 정의된다.

covariance matrix with dimension d

Covariance(공분산) 값은 0부터 $\infty$값을 가질 수 있고, 정규화된 값을 사용하는게 더 편리할 때가 있다. 공분산이 각 변량의 단위에 의존하게 되어 변동 크기량이 모호하기에 ,공분산에 각 표준편차를 나누어 정규화 시킨 것이 바로 Correlation coefficient(상관계수) 이다. 즉, 정규화된 공분산 값이라고 할 수 있다. 또한 통계적 상관 계수를 '(Pearson)피어슨 상관 계수' 또는 '피어슨 적률 상관계수'라고 부르기도 한다.

Correlation coefficient, 상관계수$\rho$)는 다음과 같의 정의된다. 상관계수는 단위가 무차원(dimensionless)이고 $-1\le \rho \le 1$ 사이의 값을 갖는다. 

 

$\mathrm{corr}\left\lbrack X,Y\right\rbrack \approx \frac{\mathrm{cov}\left\lbrack X,Y\right\rbrack }{\sqrt{\mathrm{var}\left\lbrack X\right\rbrack \mathrm{var}\left\lbrack Y\right\rbrack }}$

correalation matrix

$\mathrm{corr}\left\lbrack X,Y\right\rbrack =1$ 을 가지는 경우는 if and only iff $Y=\mathrm{aX}+b$의 경우로 $X$와 $Y$가 선형적(linear)한 관계에 있을 때이다.

Correlation coefficient(상관계수)는 regression line(회귀 라인)의 기울기와도 관련이 있다. regression coefficient는 아래의 두번째 식과 같이 표현된다. 자기 상관 계수는 degree of linearity 선형성의 정도와 관련이 있다는 점을 기억하자!

$Y=\mathrm{aX}+b$

Regression coefficient: $a=\frac{\mathrm{cov}\left\lbrack X,Y\right\rbrack }{\mathrm{var}\left\lbrack X\right\rbrack }$

만약 X, Y가 서로 독립적(independent)한 경우의 correlation coeffient(자기상관계수)의 값은 어떨까? X,Y의 상관계수의 값은 독립적이라면 아래와 같이 각각의 곱으로 표현된다. 공분산의 값은 0이 되고, 이 경우 상관계수도 0이 된다.

$\rho \left(X,Y\right)=\rho \left(X\right)\rho \left(Y\right)$

$\mathrm{cov}\left\lbrack X,Y\right\rbrack =0$

$\mathrm{corr}\left\lbrack X,Y\right\rbrack =0$

independet하다는 것은 상관 계수(Coreelation coefficient)가 0이라는 것은 성립하지만,

 Uncorrelated doesn't imply independent 상관되지 않은 것(상관계수 = 0)이 독립적인 것을 의미하지는 않는다.