본문 바로가기

전체 글

(28)
[Statistical ML]Hypothesis test 가설 검정 ※'통계 기반 머신러닝' Statistical Machine learning 수업을 듣고 정리한 포스팅입니다.※ 1.Statistical hypothesis test Data는 어떤 의미를 가질 수 있도록 해석되어야 한다. 결과의 특정 구조를 가정하여 데이터를 해석할 수 있는데, 통계적 방법을 사용하여 가정( assumption)을 확인(confirm)하거나 기각(reject)할 수 있다. 이를 hypothesis(가설)이라고 하며 이를 위해 사용되는 통계 테스트를 통계적 가설 검정(statistical hypothesis test)라고 한다. 즉, 표본 통계랑에 의해 가설의 진위를 판정하는 방법이다. Data distribution에 대한 주장을 하고 싶을 때, 머신 러닝이 적용된 한 결과의 집합이 다..
[Statistical ML]Multivariate gaussian, central limit theorem ※'통계 기반 머신러닝' Statistical Machine learning 수업을 듣고 정리한 포스팅입니다.※ 1.The multivariate Gaussian (MVN) Multivariate Gaussian(다변량 가우시안) 혹은 multivariate normal(MVA) 다변량 정규분포는 연속 변수(Continuous variables)의 결합 확률 밀도 함수(Joint probability density function)에 많이 쓰인다. MVA의 확률 밀도 함수(pdf) - D dimension에서의 정의는 다음과 같다 : 평균 : $\mu =E\left\lbrack x\right\rbrack \in R^D$ 공분산 : $\sum =\mathrm{cov}\left\lbrack x\right\r..
[Statistical ML]공분산(Covariance)과 상관계수(Correlation coefficient) ※'통계 기반 머신러닝' Statistical Machine learning 수업을 듣고 정리한 포스팅입니다.※ 1.Joint probability distribution 결합 확률 분포 많은 random variables(랜덤 변수)들이 서로 관계가 있을 때, univariate(단일) 변수만으로는 분포도를 표현하지 못한다. Bivariate distribution(이변량 확률분포)는 2개의 확률 변수들을 함께 고려한 분포고, multivaraite distribuion(다변량 확률 분포)는 2개 이상의 확률 변수들을 함께 고려한 것이다. 결합 사건(Joint events) : 동시에 함께 고려하는 여러 확률적 사건들 결합 확률 (Joint probability) : 동시에 2개 이상의 사건이 모두 일..
[Statistical ML]Student t 분포 ※'통계 기반 머신러닝' Statistical Machine learning 수업을 듣고 정리한 포스팅입니다.※ 1. T student distribution 스튜던트 t 분포 가우시안 분포는 중심부로부터 log- probability가 quadratically 감소하기에 Outliers(이상치)값에 민감하다. Student t 분포는 (t 분포라고 부르기도 한다) 가우시안 정규 분포와 모양이 비슷하다. 0을 중심으로 좌우 대칭이고, 표본 정규분포보다 평평하고 기다란 꼬리를 가지고 있는 특성을 가진다. 즉, 분산이 크다. 모 집단이 정규분포라는 정도만 알고, 모 표분편차는 모를 때 소 표본으로도 모평균을 추정하기 위해 정규 분포 대신 많이 사용된다. $T\left(x|\mu ,\sigma^2 ,\nu \..
[Statistical ML]가우시안 분포 Gaussian(normal) distribution ※'통계 기반 머신러닝' Statistical Machine learning 수업을 듣고 정리한 포스팅입니다.※ 1.Gaussian Distribution 가우시안 분포 가장 많이 이용되는 대표적인 확률 분포로, 대부분의 자료 분포가 정규 분포에 매우 근사적으로 접근하는 분포이다. 장점으로는 다음과 같이 크게 3가지가 있다. 1)평균과 분산 2가지 parameter로 해석이 쉽다. 2)중심 극한 정리(독립적인 랜덤 변수들은 approximately하게 가우시안 분포를 따른다) 는 residual error나 noise를 모델링하기에 좋다. 3)수학적으로 simple하며, 구현하기가 쉽다. probability density function 확률 밀도 함수는 다음과 같이 정의된다 : $N\left(x|\m..
[Statistical ML]Poisson distribution 포아송분포 ※'통계 기반 머신러닝' Statistical Machine learning 수업을 듣고 정리한 포스팅입니다.※ 1.Poisson distribution 포아송 분포 시행 횟수는 많으나, 특정 사건의 발생 확률이 아주 작은 확률 분포로 주로 시간적 공간적 발생 빈도가 낮은 사건의 발생 수에 잘 설명된다. $X\in \left\lbrace 0,1,2\;\ldotp \ldotp \ldotp \;\right\rbrace$ 가 parameter $\lambda >0$와 함께 Poission 분포를 가진다고 할 때, $X$ $~$ $\mathrm{Poi}\left(\lambda \right)$로 표기한다. 확률변수 X는 0,1,2,3 등 사건 발생의 수를 뜻하고 $\lambda$는 평균 발생 횟수이다. 일반적으로..
[Statistical ML]이항 분포, 베르누이 분포 ※'통계 기반 머신러닝' Statistical Machine learning 수업을 듣고 정리한 포스팅입니다.※ 1. Binomial Distribution이항분포 동전을 n 번 던진다고 할 때, $X\in \left\lbrace 0,\ldotp \ldotp \ldotp ,n\right\rbrace$ 를 동전 앞면이라고 하자. 앞면이 나올 확률이 $\Theta$일 때, X는 이항 분포(Binomial distribution)을 따른다고 하고, $X $~$\mathrm{Bin}\left(n,\Theta \right)$ 이라고 표기한다. 확률 질량 함수(pmf) : 보통 n번의 베르누이 시행에서 p를 성공율(성공 확률)이라고 할 때 k번 성공할 확률을 뜻한다. 위의 수식에서 p는 $\theta$로 표기되었다..
[Statistical ML]Mean and variance 평균과 분산 ※'통계 기반 머신러닝' Statistical Machine learning 수업을 듣고 정리한 포스팅입니다.※ 1. Mean , Expected value 평균과 기대값 기대값은 평균 그 이상으로 일반화된 개념으로, 예측 하려는 어떤 특정 값이 아닌, 기대되는 예측치들의 평균값으로 Expected value라고 한다. 확률 개념이 포함된 평균은, 확률 분포의 성격을 결정짓는 확률적 평균치로 확률 분포의 중심 위치, 즉 대표값으로 mean이라고 하며 $\mu$로 표기한다. 1) Discrete rv 이산 랜덤 변수의 경우 : $E\left\lbrack X\right\rbrack =\sum_{x\in X} x\cdot p\left(x\right)$ 2)Contiuous rv 연속 랜덤 변수의 경우 : $E..