※'통계 기반 머신러닝' Statistical Machine learning 수업을 듣고 정리한 포스팅입니다.※
1.The multivariate Gaussian (MVN)
Multivariate Gaussian(다변량 가우시안) 혹은 multivariate normal(MVA) 다변량 정규분포는 연속 변수(Continuous variables)의 결합 확률 밀도 함수(Joint probability density function)에 많이 쓰인다.
MVA의 확률 밀도 함수(pdf) - D dimension에서의 정의는 다음과 같다 :
평균 : $\mu =E\left\lbrack x\right\rbrack \in R^D$
공분산 : $\sum =\mathrm{cov}\left\lbrack x\right\rbrack \;,D\times D\;\mathrm{covariance}\;\mathrm{matrix}$
Covariance matrix(공분산 매트릭스)를 inverse를 취하면 "Precision matrix" 혹은 "Concentration matrix"라고도 한다.
Precision matrix : $\Lambda =\sum^{-1}$
아래 사진은 2d MVN 가우시안 질량 분포(d)와 full(a), diagonal(b), spherical covariance(c)를 나타낸 사진이다. Full covariance 매트릭스는 $\frac{D\left(D+1\right)}{2}$ 개의 파라미터수를 가지는데, 2로 나눠주는 이유는 covariance matrix가 symmetric하기 때문이다.
spherical covariance matrix는 원형 모양을 가진다. spherical covariance를 isotropic covariance라고 부른다. isotropic하다는 것은 등방성을 갖는다는 뜻으로, d차원에서 1차원의 거리에만 의존하는 공분산 함수로 표현 가능하다는 것을 의미한다.
2. Central limit theorem
중심극한정리는 시행이 많아질수록 통계적 확률은 수학적 확률에 수렴한다는 정리로 표본의 크기가 충분히 커짐에 따라 확률적으로 수렴하는 현상이다. 굳이 정규 분포(가우시안 분포)가 아니더라도 표본의 크기가 크다면 표본 평균의 확률 분포는 정규 분포를 보인다.
평균이 $\mu$이고 분산이 $\sigma^2$이며 $N$ 개의 random variables(랜덤변수)를 가진 확률 질량함수(pdf) 를 고려해보자. (꼭 가우시안분포일 필요는 없다.)
모집단 : $N\left(\mu ,\sigma^2 \right)$
각각의 랜덤 변수들이 독립적이며 동일하게 분포되어 있다고 가정했을 때 (iid - independent and identically distributed) 랜덤 변수들의 총 합을 다음과 같이 정의한다.
$S_N =\sum_{i=1}^N X_i$
N이 증가하면, distribution(분포)의 합 $S_N$은 아래와 같다.
Distribution of quantity : 분포의 양은 다음과 같다. $\overset{-}{X} =\frac{1}{N}\sum_{i=1}^N x_i$는 표본의 평균값이다. 표본의 평균은 통계적 평균 $\mu$에 수렴한다.
따라서 N이 증가할수록, 기대값이$\mu$, 그리고 분산값이 $\frac{\sigma^2 }{n}$인 정규 분포에 가까워진다.
표본 집단 : $N\left(\mu ,\frac{\sigma^2 }{n}\right)$
아래 그림은 중심 극한 정리를 보여주는 그림으로, $\frac{1}{N}\sum_{i=1}^N x_{\mathrm{ij}}$의 histogram을 나타낸 것이다. 여기서 $x_{\mathrm{ij}} $~$\mathrm{Beta}\left(1,5\right)$를 따른다. (for j=1:1000) N을 증가시킬수록 분포는 가우시안 형태를 따라간다.
'Statistical Machine learning' 카테고리의 다른 글
[Statistical ML]Maximum Likelihood estimation (0) | 2021.04.18 |
---|---|
[Statistical ML]Hypothesis test 가설 검정 (0) | 2021.04.18 |
[Statistical ML]공분산(Covariance)과 상관계수(Correlation coefficient) (0) | 2021.04.18 |
[Statistical ML]Student t 분포 (0) | 2021.04.18 |
[Statistical ML]가우시안 분포 Gaussian(normal) distribution (0) | 2021.04.18 |