※'통계 기반 머신러닝' Statistical Machine learning 수업을 듣고 정리한 포스팅입니다.※
1. Mean , Expected value 평균과 기대값
기대값은 평균 그 이상으로 일반화된 개념으로, 예측 하려는 어떤 특정 값이 아닌, 기대되는 예측치들의 평균값으로 Expected value라고 한다. 확률 개념이 포함된 평균은, 확률 분포의 성격을 결정짓는 확률적 평균치로 확률 분포의 중심 위치, 즉 대표값으로 mean이라고 하며 $\mu$로 표기한다.
1) Discrete rv 이산 랜덤 변수의 경우 :
$E\left\lbrack X\right\rbrack =\sum_{x\in X} x\cdot p\left(x\right)$
2)Contiuous rv 연속 랜덤 변수의 경우 :
$E\left\lbrack X\right\rbrack =\int_x x\cdot p\left(x\right)\mathrm{dx}$
2. Variance 분산
분산은 자료들이 불규칙하게 분포하는 정도를 나타내는 통계량으로, 기대값으로부터 얼마나 퍼져 있는지 가늠해 볼 수 있다. 즉, distribution 분포의 spread 정도를 측정하는데 쓰이며 $\sigma^2$ 라고 표기한다.
$\mathrm{var}\left\lbrack X\right\rbrack \approx E\left\lbrack {\left(X-\mu \right)}^2 \right\rbrack =\int {\left(X-\mu \right)}^2 \cdot p\left(x\right)\mathrm{dx}$
$=\int x^2 p\left(x\right)\mathrm{dx}+\mu^2 \int p\left(x\right)\mathrm{dx}-2\mu \int \mathrm{xp}\left(x\right)\mathrm{dx}=E\left\lbrack X^2 \right\rbrack -\mu^2 +{2\mu }^2$
$E\left\lbrack X^2 \right\rbrack =\mu^2 +\sigma^2$
따라서 $\mathrm{var}\left\lbrack X\right\rbrack =E\left\lbrack X^2 \right\rbrack -\mu^2$ 로 나타낼 수 있다.
표준편차(Standard deviation)는, 분산에 양의 제곱근을 취한 값으로 $\sigma$로 나타내며 평균에서 어느만큼 떨어져 있는지 알 수 있는 산포의 척도이다. 표준편차가 작을 수록 평균값 주변에 몰려있게 되고, 표준편차가 클 수록 평균값에서 떨어져 있게 된다.
$\mathrm{std}\left\lbrack X\right\rbrack =\sqrt{\mathrm{var}\left\lbrack X\right\rbrack }=\sigma$
'Statistical Machine learning' 카테고리의 다른 글
[Statistical ML]Poisson distribution 포아송분포 (0) | 2021.04.18 |
---|---|
[Statistical ML]이항 분포, 베르누이 분포 (0) | 2021.04.18 |
[Statistical ML]확률 분포 (2) - Cumulative distributuion function(cdf) (0) | 2021.04.17 |
[Statistical ML]확률 분포 - Probability distribution/pmf/pdf (0) | 2021.04.17 |
[Statistical ML]확률의 규칙(Basic probability rules) (0) | 2021.04.17 |