본문 바로가기

Statistical Machine learning

[Statistical ML]Mean and variance 평균과 분산

'통계 기반 머신러닝' Statistical Machine learning 수업을 듣고 정리한 포스팅입니다.※

1. Mean , Expected value 평균과 기대값

기대값은 평균 그 이상으로 일반화된 개념으로, 예측 하려는 어떤 특정 값이 아닌, 기대되는 예측치들의 평균값으로 Expected value라고 한다. 확률 개념이 포함된 평균은, 확률 분포의 성격을 결정짓는 확률적 평균치로 확률 분포의 중심 위치, 즉 대표값으로 mean이라고 하며  $\mu$로 표기한다.

1) Discrete rv 이산 랜덤 변수의 경우 : 

$E\left\lbrack X\right\rbrack =\sum_{x\in X} x\cdot p\left(x\right)$

2)Contiuous rv 연속 랜덤 변수의 경우 :

$E\left\lbrack X\right\rbrack =\int_x x\cdot p\left(x\right)\mathrm{dx}$

2. Variance 분산

분산은 자료들이 불규칙하게 분포하는 정도를 나타내는 통계량으로, 기대값으로부터 얼마나 퍼져 있는지 가늠해 볼 수 있다. 즉, distribution 분포의 spread 정도를 측정하는데 쓰이며 $\sigma^2$ 라고 표기한다.

$\mathrm{var}\left\lbrack X\right\rbrack \approx E\left\lbrack {\left(X-\mu \right)}^2 \right\rbrack =\int {\left(X-\mu \right)}^2 \cdot p\left(x\right)\mathrm{dx}$

$=\int x^2 p\left(x\right)\mathrm{dx}+\mu^2 \int p\left(x\right)\mathrm{dx}-2\mu \int \mathrm{xp}\left(x\right)\mathrm{dx}=E\left\lbrack X^2 \right\rbrack -\mu^2 +{2\mu }^2$

$E\left\lbrack X^2 \right\rbrack =\mu^2 +\sigma^2$

따라서 $\mathrm{var}\left\lbrack X\right\rbrack =E\left\lbrack X^2 \right\rbrack -\mu^2$ 로 나타낼 수 있다.

 

표준편차(Standard deviation)는, 분산에 양의 제곱근을 취한 값으로 $\sigma$로 나타내며 평균에서 어느만큼 떨어져 있는지 알 수 있는 산포의 척도이다. 표준편차가 작을 수록 평균값 주변에 몰려있게 되고, 표준편차가 클 수록 평균값에서 떨어져 있게 된다.

$\mathrm{std}\left\lbrack X\right\rbrack =\sqrt{\mathrm{var}\left\lbrack X\right\rbrack }=\sigma$