※'통계 기반 머신러닝' Statistical Machine learning 수업을 듣고 정리한 포스팅입니다.※
1. Binomial Distribution이항분포
동전을 n 번 던진다고 할 때, X∈{0,...,n} 를 동전 앞면이라고 하자. 앞면이 나올 확률이 Θ일 때, X는 이항 분포(Binomial distribution)을 따른다고 하고, X~Bin(n,Θ) 이라고 표기한다.
확률 질량 함수(pmf) :

보통 n번의 베르누이 시행에서 p를 성공율(성공 확률)이라고 할 때 k번 성공할 확률을 뜻한다. 위의 수식에서 p는 θ로 표기되었다.

n 중에서 k를 선택하는 조합의 경우로 Binomial coefficient라고 부르며 "n choose k"라고 쓴다. (matlab 내장함수도 nchoosek)
[nk]=n!(n−k)!k!
이항분포는 시행 횟수 n이 매우 클 때, 확률 분포 모양이 기대치를 중심으로 좌우 대칭하는 정규분포 모양으로 접근한다.
이항 분포의 Theoritical mean(평균), variance(분산)은 다음과 같다 :
mean = nθ
variance = nθ(1−θ)
2.Bernoulli Distribution 베르누이 분포
이번엔 동전을 단 한번만 던진다고 가정해보자. X∈{0,1} 를 랜덤 이항 변수(binary random variable)이라고 할 때, θ는 성공 혹은 (OR) 앞면이 나올 확률이다. 우리는 X가 Bernoulli distribution을 따른다고 하며, X~Ber(Θ) 라고 표기한다.
확률 질량 함수(pmf) :
다음과 같이 확률 질량 함수가 정의되는데, 위의 이항분포 (Binomial distribution)의 n = 1인 case이다.


베르누이 분포의 Theoritical mean(평균), variance(분산)은 다음과 같다 :
mean = θ
variance = θ(1−θ)
3. Multinomial distribution 다항분포
다항 분포는 이항 분포를 일반화시킨 확률 분포로 n개의 독립적인 시행으로 구성된다. 즉, 매 시행마다 상호 독립적이다. x=(x1,x2,...,xK)가 random vector고 xj를 주사위를 던질 때 j 면이 나올 경우의 수라고 하자.
이 때 확률 질량 함수(pmf)는 다음과 같이 정의된다.

다항분포의 coefficeint는 n개의 set에서 같은 유형끼리 k개의 그룹으로 구분하는 경우의 수가 된다.
여기서 (x1+x2+...+xk=n)이다.
다항 분포의 Theoritical mean(평균), variance(분산)은 다음과 같다 :
mean = nθ
variance = nθ(1−θ)
4. Categorical distribution 카테고리 분포
Multinoulli 분포라고도 하며 베르누이 분포의 확장판이다. 베르누이가 0이나 1(또는 -1이나 1)이 나올 확률 변수의 분포였다면, 카테고리 분포는 1부터 K까지 K개의 정수값 중 하나가 나오는 확률 변수의 분포다.
단, 베르누이 분포와 다른 점은 다음과 같은 제약 조건을 가진다.
∑Ki=1θi=1,0≤θi≤1
일반적으로 다음과 같이 Categorial distribution을 나타낼 수 있다.

카테고리 분포의 Theoritical mean(평균), variance(분산)은 다음과 같다 :
mean = θ
variance = θ(1−θ)
Summary 테이블 :
다항 분포는 n개의 set 중 k개의 그룹으로 구분하는 경우
Multinouli분포(카테고리 분포)는 1부터 K까지 K개의 정수값 중 하나가 나오는 확률 변수의 분포
이항분포는 n개의 시행 중 k번 성공할 확률 변수의 분포
베르누이 분포는 이항분포에서 n=1인 경우인, 단 한번의 시행에서 성공 or 실패할 2가지의 확률 결과 만을 갖는 분포

'Statistical Machine learning' 카테고리의 다른 글
[Statistical ML]가우시안 분포 Gaussian(normal) distribution (0) | 2021.04.18 |
---|---|
[Statistical ML]Poisson distribution 포아송분포 (0) | 2021.04.18 |
[Statistical ML]Mean and variance 평균과 분산 (0) | 2021.04.18 |
[Statistical ML]확률 분포 (2) - Cumulative distributuion function(cdf) (0) | 2021.04.17 |
[Statistical ML]확률 분포 - Probability distribution/pmf/pdf (0) | 2021.04.17 |