※'통계 기반 머신러닝' Statistical Machine learning 수업을 듣고 정리한 포스팅입니다.※
1. Probability Distribution 확률 분포
확률 분포는 해당 확률 값과 함께 확률 변수의 가능한 모든 결과 목록이다.
예시)주사위를 던질 경우 (Discrete univariate probability distribution 경우)
outcome of die roll | 1 | 2 | 3 | 4 | 5 | 6 |
---|---|---|---|---|---|---|
Probability | 1/6 | 1/6 | 1/6 | 1/6 | 1/6 | 1/6 |
- Discrete :
Discrete하다는 의미는, 두 연속적인 결과에 대해 중간 값을 가질 수 없다는 뜻이다.예시) 주사위를 던질 때 1과 2가 나올 확률의 결과에 대해서 주사위의 면이 1.5인 결과를 얻을 수 없다. - Univariate :
하나의 random variable(랜덤 변수)만 가질 때를 뜻한다.
주사위를 던지는 사건에 대해서 우리는 주사위의 면에 대한 결과만 갖는다.
만약, 하나 이상의 variable을 가질 때 multivariate distribution(다변수 분포)를 갖는다고 한다.
2가지 variable을 가질 때는, bivariate distribution(이변량 분포)를 갖는다고 정의한다. - Finite support :
유한개(limited number)의 결과를 가질 때를 의미한다.즉, 확률 분포가 정의된 결과를 말한다. 예를 들어, 주사위 예제의 경우 support는 1,2,3,4,5,6이 된다.
무한한(infinite)한 support가 아니기에, 유한한(finite) support라고 한다.
2. Functions
주사위의 예제의 경우 6가지의 가능한 결과 값을 가졌기에 확률 분포를 Table에 정의할 수 있었지만, 실제 많은 시나리오는 훨씬 많은 결과값을 가지며 테이블에 적을 수가 없다. 따라서, 함수를 사용하면 확률 분포를 간결하게 정의 할 수 있다.
Parameters (매개변수) 함수의 출력을 정의하고, 이 출력은 랜덤 프로세스에 대해 특정 결과가 나올 확률을 알려준다. 따라서,확률 분포에 있어서 가장 중요한 특성이다.
예시) Maximum Likelihood Estimation, Bayesian inference
3. Probability mass function 확률 질량 함수(pmf)
이산 확률 변수에 대해서 확률 변수 X가 취하는 개개의 값 $x_i$에 확률값으로 대응시킨 확률 함수
pmf 함수 $f$ 는 결과의 확률을 나타내고, 다음과 같이 표기된다.
$f\left(x\right)=P\left(X=x\right)$
예시) pmf는 결과 확률을 return하기에, 주사위를 던질 경우 3이 나올 확률은 f(3) = 1/6이 된다.
마찬가지로 확률 질량 함수(pmf)는, 이전 포스팅의 Probability rule에서 'AXIOM1: 이벤트에 대한 사건의 확률은 0보다 크거나 같으며 1보다 작거나 같다' rule과 'AXIOM2 : 모든 가능한 결과에 대한 확률은 합이 1이다.' 의 rule을 따른다.
$0\le f\left(x\right)\le 1$
$\sum_i f\left(x_i \right)=f\left(x_1 \right)+f\left(x_2 \right)+\ldotp \ldotp \ldotp =1$
주사위 예제에 대한 이산 확률 분포는 다음과 같다.
Bernoulli Trial 베르누이 시행:
매 시행마다 일정한 확률로 나타나고, 각각의 시행이 통계적으로 독립된 시행일 때 베르누이 시행(Bernoulli Trial)이라고 한다. 전제조건 :
- 모든 시행은 매번 독립적
- 각 시행은 두가지 결과 중 하나만 나타남
- 매 결과 확률은 시행의 횟수와는 상관 없이 일정하다.
한번의 실행에 두가지의 결과 값만을 가지며, P(성공), P(실패) 의 2가지 결과를 가진다.
P(성공)=P(X=1) = p
P(실패)=P(X=0) = 1-p
확률 질량 함수(pmf)의 Bernoulli distribution :
동전을 던지는 Event에 대해서 앞면 (Head)= 1, 뒷면(Tails)= 0이라고 하자. 이 때 p = 0.5이다. 이렇게 두가지의 결과값을 가지는 확률 분포에 대해서 Bernoulli distribution이라고 부르며, 아래와 같이 pmf (확률 질량함수)를 정의할 수 있다.
$f\left(x\right)=p^x {\left(1-p\right)}^{1-x}$
4. Probability density function 확률 밀도 함수(pdf)
앞서 설명한 pmf와는 다르게, 연속적인 확률 분포에 대한 함수로 'probability density function (pdf)'라고 부른다.
사건 결과값들(빈도)의 밀집 정도를 확률로 나타낸 함수로, 연속 확률변수 X가 어느 구간에 있을 확률에 대응된다.
아래 예시와 같이, 랜덤 변수는 Continuous probability Distribution 연속 확률 변수로 더 잘 표현될 때가 있다.
예시)
인구에서 무작위로 뽑은 성인의 키
택시 기사가 다음 작업을하기 전에 기다려야하는 시간
Normal distribution :
Normal distribution(정규 분포)는 확률 통계에서 가장 "common"한 확률 분포이다. 가우시안 분포라고도 부르며, 대표적으로 가장 많이 이용되는 확률 분포이다. 평균을 중심으로 좌우 대칭인 종(bell) 모양을 갖는 확률 분포모양을 갖는다.
$f\left(x;\mu ;\sigma \right)=\frac{1}{\sigma \sqrt{2\pi }}\mathrm{exp}\left(-\frac{{\left(x-\mu \right)}^2 }{2\sigma^2 }\right)$
$\mu =\mathrm{mean}\;\left(\mathrm{the}\;\mathrm{center}\;\mathrm{of}\;\mathrm{the}\;\mathrm{distribution}\right)$$\sigma =\mathrm{standard}\;\mathrm{deviation}\;\left(\mathrm{how}\;\mathrm{spread}\;\mathrm{the}\;\mathrm{distribution}\;\mathrm{is}\right)$
여기서, 중심 극한 정리(Central limit theorem) 가 중요한데 확률적 수렴에 관한 정의 중 하나로, 시행이 많아질수록 통계적 확률은 수학적 확률에 가까워 진다는 정리이다. 표본의 크기가 충분히 커짐에 따라, 확률적으로 수렴하는 현상이라고도 한다.
확률 질량 함수 probability density function의 성질 :
1)확률 밀도 함수의 output 값이 0보다 크거나 같다.
$f\left(x\right)\ge 0$
2)그러나 확률 질량 함수와 달리 확률 밀도 함수의 output은 확률 값이 아니다.
확률 밀도 함수(pdf)에서 확률을 구하려면, curve 영역의 면적을 구해야 한다.
확률 밀도 함수를 0부터 1까지 적분한 확률은 , P(0<X<1) = 0.3393
$\int_0^1 f\left(x;\mu ,\sigma \right)\mathrm{dx}=P\left(0<X<1\right)$
3) pdf(확률 질량 함수)를 -무한대 ~ +무한대까지 적분한 값은 1이다.
$\int_{-\infty }^{\infty } f\left(x\right)\mathrm{dx}=1$
예를들어, 동일한 숫자의 구간에 대해 적분하면, 확률 값은 0이다.
$\int_2^2 f\left(x\right)\mathrm{dx}=0$
Continuous probability disturibution(pdf)에 대해서 a 와 b 사이의 값(exclusive)을 가질 확률은, a 와 b사이의 값(inclusive)의 확률과 같다.
$P\left(a<X<b\right)=P\left(a\le X\le b\right)$
4)매개 변수 값은 함수의 Output(출력 값)을 변경할 수 있지만 확률 분포와 다르다.
함수의 평균값/분산 값을 잘 설정해야함!
'Statistical Machine learning' 카테고리의 다른 글
[Statistical ML]Mean and variance 평균과 분산 (0) | 2021.04.18 |
---|---|
[Statistical ML]확률 분포 (2) - Cumulative distributuion function(cdf) (0) | 2021.04.17 |
[Statistical ML]확률의 규칙(Basic probability rules) (0) | 2021.04.17 |
[Statistical ML]Probability - 주변 확률,결합 확률,조건부확률 (0) | 2021.04.17 |
[Statistical ML]Unsupervised learning (0) | 2021.04.17 |