[Statistical ML]이항 분포, 베르누이 분포

※'통계 기반 머신러닝' Statistical Machine learning 수업을 듣고 정리한 포스팅입니다.※

1. Binomial Distribution이항분포

동전을 n 번 던진다고 할 때, $X\in \left\lbrace 0,\ldotp \ldotp \ldotp ,n\right\rbrace$ 를 동전 앞면이라고 하자. 앞면이 나올 확률이 $\Theta$ 일 때, X는 이항 분포(Binomial distribution)을 따른다고 하고, $X$ ~ $\mathrm{Bin}\left(n,\Theta \right)$ 이라고 표기한다.

확률 질량 함수(pmf) :

보통 n번의 베르누이 시행에서 p를 성공율(성공 확률)이라고 할 때 k번 성공할 확률을 뜻한다. 위의 수식에서 p는 $\theta$ 로 표기되었다.

n 중에서 k를 선택하는 조합의 경우로 Binomial coefficient라고 부르며 "n choose k"라고 쓴다. (matlab 내장함수도 nchoosek)

$\left\lbrack \begin{array}{c} n\\ k \end{array}\right\rbrack =\frac{n!}{\left(n-k\right)!k!}$

이항분포는 시행 횟수 n이 매우 클 때, 확률 분포 모양이 기대치를 중심으로 좌우 대칭하는 정규분포 모양으로 접근한다.

이항 분포의 Theoritical mean(평균), variance(분산)은 다음과 같다 :

mean = $n\theta$

variance = $n\theta \left(1-\theta \right)$

2.Bernoulli Distribution 베르누이 분포

이번엔 동전을 단 한번만 던진다고 가정해보자. $X\in \left\lbrace 0,1\right\rbrace$ 를 랜덤 이항 변수(binary random variable)이라고 할 때, $\theta$ 는 성공 혹은 (OR) 앞면이 나올 확률이다. 우리는 X가 Bernoulli distribution을 따른다고 하며, $X$ ~ $\mathrm{Ber}\left(\Theta \right)$ 라고 표기한다.

확률 질량 함수(pmf) :

다음과 같이 확률 질량 함수가 정의되는데, 위의 이항분포 (Binomial distribution)의 n = 1인 case이다.

n = 10일 때 (a) theta - 0.25, (b) theta - 0.9

베르누이 분포의 Theoritical mean(평균), variance(분산)은 다음과 같다 :

mean = $\theta$

variance = $\theta \left(1-\theta \right)$

3. Multinomial distribution 다항분포

다항 분포는 이항 분포를 일반화시킨 확률 분포로 n개의 독립적인 시행으로 구성된다. 즉, 매 시행마다 상호 독립적이다. $x=\left(x_1 ,x_2 ,\ldotp \ldotp \ldotp ,x_K \right)$ 가 random vector고 $x_j$ 를 주사위를 던질 때 j 면이 나올 경우의 수라고 하자.

이 때 확률 질량 함수(pmf)는 다음과 같이 정의된다.

다항분포의 coefficeint는 n개의 set에서 같은 유형끼리 k개의 그룹으로 구분하는 경우의 수가 된다.

여기서 ( $x_1 +x_2 +\ldotp \ldotp \ldotp +x_k =n$ )이다.

다항 분포의 Theoritical mean(평균), variance(분산)은 다음과 같다 :

mean = $n\theta$

variance = $n\theta \left(1-\theta \right)$

4. Categorical distribution 카테고리 분포

Multinoulli 분포라고도 하며 베르누이 분포의 확장판이다. 베르누이가 0이나 1(또는 -1이나 1)이 나올 확률 변수의 분포였다면, 카테고리 분포는 1부터 K까지 K개의 정수값 중 하나가 나오는 확률 변수의 분포다.

단, 베르누이 분포와 다른 점은 다음과 같은 제약 조건을 가진다.

$\sum_{i=1}^K \theta_i =1,0\le \theta_i \le 1$

일반적으로 다음과 같이 Categorial distribution을 나타낼 수 있다.

카테고리 분포의 Theoritical mean(평균), variance(분산)은 다음과 같다 :

mean = $\theta$

variance = $\theta \left(1-\theta \right)$

Summary 테이블 :

다항 분포는 n개의 set 중 k개의 그룹으로 구분하는 경우
Multinouli분포(카테고리 분포)는 1부터 K까지 K개의 정수값 중 하나가 나오는 확률 변수의 분포
이항분포는 n개의 시행 중 k번 성공할 확률 변수의 분포
베르누이 분포는 이항분포에서 n=1인 경우인, 단 한번의 시행에서 성공 or 실패할 2가지의 확률 결과 만을 갖는 분포

'Statistical Machine learning' 카테고리의 다른 글

[Statistical ML]가우시안 분포 Gaussian(normal) distribution (0)	2021.04.18
[Statistical ML]Poisson distribution 포아송분포 (0)	2021.04.18
[Statistical ML]Mean and variance 평균과 분산 (0)	2021.04.18
[Statistical ML]확률 분포 (2) - Cumulative distributuion function(cdf) (0)	2021.04.17
[Statistical ML]확률 분포 - Probability distribution/pmf/pdf (0)	2021.04.17

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

프랑스 대학원생의 Diary

[Statistical ML]이항 분포, 베르누이 분포

1. Binomial Distribution이항분포

2.Bernoulli Distribution 베르누이 분포

3. Multinomial distribution 다항분포

4. Categorical distribution 카테고리 분포

'Statistical Machine learning' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

[Statistical ML]이항 분포, 베르누이 분포

1. Binomial Distribution이항분포

2.Bernoulli Distribution 베르누이 분포

3. Multinomial distribution 다항분포

4. Categorical distribution 카테고리 분포

'Statistical Machine learning' 카테고리의 다른 글

'Statistical Machine learning' Related Articles

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역