※'통계 기반 머신러닝' Statistical Machine learning 수업을 듣고 정리한 포스팅입니다.※
1. T student distribution 스튜던트 t 분포
가우시안 분포는 중심부로부터 log- probability가 quadratically 감소하기에 Outliers(이상치)값에 민감하다. Student t 분포는 (t 분포라고 부르기도 한다) 가우시안 정규 분포와 모양이 비슷하다. 0을 중심으로 좌우 대칭이고, 표본 정규분포보다 평평하고 기다란 꼬리를 가지고 있는 특성을 가진다. 즉, 분산이 크다.
모 집단이 정규분포라는 정도만 알고, 모 표분편차는 모를 때 소 표본으로도 모평균을 추정하기 위해 정규 분포 대신 많이 사용된다.
$T\left(x|\mu ,\sigma^2 ,\nu \right)\propto {\left\lbrack 1+\frac{1}{\nu }{\left(\frac{x-\mu }{\sigma }\right)}^2 \right\rbrack }^{-\left(\frac{\nu +1}{2}\right)}$
평균 : $\mu =E\left\lbrack X\right\rbrack$
분산 : $\mathrm{var}=\frac{\nu \sigma^2 }{\nu -2}$
자유도 : $\nu >0\;\mathrm{degrees}\;\mathrm{of}\;\mathrm{freedom}$
상단의 그림 Figure(a) 와 같이 student t 분포는 gaussian분포보다 평평하고 큰 분산을 갖는 것을 볼 수 있다. Figure(b)에서 log scale을 취했을 때, student t분포는 모든 parameter에 대해서 log-concave하지 않다. 반면 라플라시안 분포는 log-concave하다. 모두 unimodal한 함수이다(한 peak값만 갖는다).
한가지 더 유의할 점은, student-t분포의 분산은 자유도($\nu$)가 2보다 클 때 정의된다는 것이다. 평균은 자유도($\nu$)가 1보다 클 때 정의된다.
$\nu$=1인 경우의 분포는 Cauchy or Lorentz distribution이라고도 알려져 있다. 양쪽 꼬리가 두꺼운 모양을 하고 있는 분포로, 모평균이 존재하지 않는다.
따라서 finite(유한)한 분산값을 위해 $\nu$ > 2 를 요구하며, $\nu$>4 일 때 좋은 performance를 낸 다고 알려져 있다. $\nu$ >>5 라면 스튜던트 t 분포는 가우시안 분포에 가까워지며 outliers에 강한 'robustness 특성'을 잃게 된다. 따라서 자유도의 적절한 선택이 중요하다.
상단의 왼쪽 그림(a)를 보면 outliers(이상치)가 존재하지 않는 경우로 Gaussian분포와 student t 분포 모두 데이터의 형태를 잘 따른다. 하지만 그림(b)와 같이 오른쪽에 outliers(이상치)가 존재하는 경우, 가우시안 분포는 영향을 많이 받게 되지만 student t 분포는 거의 변화하지 않는다. 이와 같이 스튜던트 t 분포는 outliers(이상치)에 따른 영향을 덜 받는다. 즉, Gaussian 분포에 비해 outliers(이상치)에 대해 더 robustness하다고 할 수 있다!
'Statistical Machine learning' 카테고리의 다른 글
[Statistical ML]Multivariate gaussian, central limit theorem (0) | 2021.04.18 |
---|---|
[Statistical ML]공분산(Covariance)과 상관계수(Correlation coefficient) (0) | 2021.04.18 |
[Statistical ML]가우시안 분포 Gaussian(normal) distribution (0) | 2021.04.18 |
[Statistical ML]Poisson distribution 포아송분포 (0) | 2021.04.18 |
[Statistical ML]이항 분포, 베르누이 분포 (0) | 2021.04.18 |