본문 바로가기

Statistical Machine learning

[Statistical ML]Poisson distribution 포아송분포

'통계 기반 머신러닝' Statistical Machine learning 수업을 듣고 정리한 포스팅입니다.※

1.Poisson distribution 포아송 분포

시행 횟수는 많으나, 특정 사건의 발생 확률이 아주 작은 확률 분포로 주로 시간적 공간적 발생 빈도가 낮은 사건의 발생 수에 잘 설명된다. $X\in \left\lbrace 0,1,2\;\ldotp \ldotp \ldotp \;\right\rbrace$ 가 parameter $\lambda >0$와 함께 Poission 분포를 가진다고 할 때, $X$ $~$ $\mathrm{Poi}\left(\lambda \right)$로 표기한다.

확률변수 X는 0,1,2,3 등 사건 발생의 수를 뜻하고 $\lambda$는 평균 발생 횟수이다. 일반적으로 평균 = 분산 = $\lambda$와 같다.

확률 질량 함수 pmf 는  다음과 같이 표기된다.

$\mathrm{Poi}\left(x|\lambda \right)=e^{-\lambda } \frac{\lambda^x }{x!}$

$e^{-\lambda }$는 Normalization 정규화를 위한 상수로, 포아송 분포의 총 합이 1이 되게끔 하는데 필요하다.

Empirical Distribution : 

경험적 확률은 관측자가 관측을 하기 전에 가지고 있는 확률 분포를 의미하며 사전 확률이라고도 한다. 예를들어 주사위 하나를 던질 때 1이 나올 확률은 1/6이라고 알고 있다. 이는 논리적으로 확률이 1/6이며 수많은 사람들이 실험을 한 결과 그 확률이 1/6에 가까웠기 때문이다. n 회 시행에서 어떤 사건 E를 관측한 횟수를 r이라고 할 때 n이 무한대에 가까워질 때 r/n 이 일정한 값 p에 가까워졌을 경우 p를 사건 E의 경험적 확률이라 한다.

경험적 분포란 ?

주어진 data set에 대해서 $D=\left\lbrace x_1 ,x_2 ,\ldotp \ldotp \ldotp ,x_N \right\rbrace$를 empirical distribution이라고 정의한다.

$P_{\mathrm{emp}} \left(A\right)=\frac{1}{N}\sum_{i=1}^N \delta_{x_i } \left(A\right)$

$\delta_x \left(A\right)=0\;\mathrm{if}\;x\not\in A,\mathrm{and}\;1\;\mathrm{if}\;x\in A$

일반적으로 각 샘플에 대한 weight 는 다음과 같이 정의된다 :

$p\left(x\right)=w_i \delta_{x_i } \left(A\right)$

${0\le w}_i \le 1\;\mathrm{and}\;\sum_{i=1}^N w_i =1$

 

Poission distribution의 Empirical mean, variance를 구해보자.

1) 평균값 : 테일러 전개를 통해서 시그마 부분을 근사화 할 수 있다.

 

2) 분산 :

 

Matlab으로 Simulation 한 결과이다. sample의 수는 N=1000 x 1000 충분히 큰 샘플에서 경험적 평균과 분산을 구한 결과 이론 값 lamda = 4에 근접함을 알 수 있다.

$\lambda$ = 4 일 때  (이론적 평균 분산 값)

mean_emp = 3.9981

var_emp = 4.0045

 

cdf Poission distribution