본문 바로가기

Statistical Machine learning

[Statistical ML]Student t 분포

'통계 기반 머신러닝' Statistical Machine learning 수업을 듣고 정리한 포스팅입니다.※

1. T student distribution 스튜던트 t 분포

가우시안 분포는 중심부로부터 log- probability가 quadratically 감소하기에 Outliers(이상치)값에 민감하다. Student t 분포는 (t 분포라고 부르기도 한다) 가우시안 정규 분포와 모양이 비슷하다. 0을 중심으로 좌우 대칭이고, 표본 정규분포보다 평평하고 기다란 꼬리를 가지고 있는 특성을 가진다. 즉, 분산이 크다.

모 집단이 정규분포라는 정도만 알고, 모 표분편차는 모를 때 소 표본으로도 모평균을 추정하기 위해 정규 분포 대신 많이 사용된다.

$T\left(x|\mu ,\sigma^2 ,\nu \right)\propto {\left\lbrack 1+\frac{1}{\nu }{\left(\frac{x-\mu }{\sigma }\right)}^2 \right\rbrack }^{-\left(\frac{\nu +1}{2}\right)}$

평균 : $\mu =E\left\lbrack X\right\rbrack$

분산 : $\mathrm{var}=\frac{\nu \sigma^2 }{\nu -2}$

자유도 : $\nu >0\;\mathrm{degrees}\;\mathrm{of}\;\mathrm{freedom}$

(a) pdf N(0,1) , T(0,1,1) and Lap(0,1/sqrt(2)) (b) Log scale of pdfs

 상단의 그림 Figure(a) 와 같이 student t 분포는 gaussian분포보다 평평하고 큰 분산을 갖는 것을 볼 수 있다. Figure(b)에서 log scale을 취했을 때, student t분포는 모든 parameter에 대해서  log-concave하지 않다. 반면 라플라시안 분포는 log-concave하다.  모두 unimodal한 함수이다(한 peak값만 갖는다).

한가지 더 유의할 점은, student-t분포의 분산은 자유도($\nu$)가 2보다 클 때 정의된다는 것이다.  평균은  자유도($\nu$)가 1보다 클 때 정의된다. 

$\nu$=1인 경우의 분포는 Cauchy or Lorentz distribution이라고도 알려져 있다. 양쪽 꼬리가 두꺼운 모양을 하고  있는 분포로,  모평균이 존재하지 않는다. 

따라서 finite(유한)한 분산값을 위해  $\nu$ > 2 를 요구하며, $\nu$>4 일 때 좋은 performance를 낸 다고 알려져 있다.  $\nu$ >>5 라면 스튜던트 t 분포는 가우시안 분포에 가까워지며 outliers에 강한 'robustness 특성'을 잃게 된다. 따라서 자유도의 적절한 선택이 중요하다.

(a) outlier가 없는 경우 (b) outlier가 존재하는 경우

상단의 왼쪽 그림(a)를 보면 outliers(이상치)가 존재하지 않는 경우로 Gaussian분포와 student t 분포 모두 데이터의 형태를 잘 따른다. 하지만 그림(b)와 같이 오른쪽에 outliers(이상치)가 존재하는 경우, 가우시안 분포는 영향을 많이 받게 되지만 student t 분포는 거의 변화하지 않는다. 이와 같이 스튜던트 t 분포는 outliers(이상치)에 따른 영향을 덜 받는다.  즉, Gaussian 분포에 비해 outliers(이상치)에 대해 더 robustness하다고 할 수 있다!