※'통계 기반 머신러닝' Statistical Machine learning 수업을 듣고 정리한 포스팅입니다.※
1. Continuous random variables 연속 확률 분포
X를 uncertain continuous quantity라고 가정했을 때, X의 확률은 어떠한 구간$a\le X\le b$에서 다음과 같이 계산된다. 사건 A, B, W를 다음과 같이 정의했을 때, A와 W는 mutually exclusive하다. 따라서 다음과 같은 수식으로 나타낼 수 있다.
$A=\left(X\le a\right),B=\left(X\le b\right)\;\mathrm{and}\;W=\left(a<X\le b\right)$
$B=A\vee W\;,A\;\mathrm{and}\;W\;\mathrm{are}\;\mathrm{mutually}\;\mathrm{exclusive}$
$p\left(B\right)=p\left(A\right)+p\left(W\right)$
$p\left(W\right)=p\left(B\right)-p\left(A\right)$
2. Cumulative Distribution Function 확률 누적 분포 함수
함수 $F\left(q\right)\cong p\left(X\le q\right)$ 를 정의하자. 이 함수는 X에 대해 cumulative distribution function (cdf)라고 불린다. 쉽게 말해서 확률변수 X가 특정 값 x 이하일 확률을 나타내는 확률 함수이다.
이 함수는 monotically하게 증가하는 함수로 다음과 같이 정의한다.
$p\left(a<X\le b\right)=F\left(b\right)-F\left(a\right)$$f\left(x\right)=\frac{d}{\mathrm{dx}}F\left(x\right)\;,f\left(x\right)\;\mathrm{is}\;\mathrm{probability}\;\mathrm{density}\;\mathrm{function}$
즉, 쉽게 말해서 cumulative distribution function (cdf)는 확률밀도함수(pdf)를 적분한 것!
$P\left(a<X\le b\right)=\int_a^b f\left(x\right)\mathrm{dx}$
X의 cdf인 F가 monotically 증가하는 함수 일 때, inverse 함수를 $F^{-1}$ 라고 정의하자. 이 때, $\alpha$ 는 F의 Quantile이라고 정의한다.
(Quantile이란 random variable X의 분포를 확률적으로 균등하게 (q개로) 자른 개념이라고 보면 된다. 보통 kth q-quantile이란 표현을 쓰는데 이것은 X의 분포를 확률적으로 q개의 균등한 조각으로 잘랐을때 앞에서부터 k번째 조각까지의 위치를 뜻한다.)
$F^{-1} \left(\alpha \right)=x_a$
$P\left(X\le X_a \right)=\alpha$
2 - Quantile의 경우, $F^{-1} \left(0\ldotp 5\right)$ 는 분포의 median 값이다.
$F^{-1} \left(0\ldotp 5\right)=\mathrm{midean}\;\mathrm{of}\;\mathrm{the}\;\mathrm{distributuion}$
$\Phi$ 를 Gaussian 분포 N(0,1)의 cdf라고 할 때, 위의 Figure 1처럼 Lower quantile과 Upper quantile을 갖는다.
$\Phi^{-1} \left(\frac{\alpha }{2}\right),\Phi^{-1} \left(1-\frac{\alpha }{2}\right)\;\mathrm{are}\;\mathrm{the}\;\mathrm{lower}\;\mathrm{and}\;\mathrm{upper}\;\mathrm{quantiles}$
$\alpha =0\ldotp 05$ 일 때, 95퍼센트의 central interval은 :
$\left(\Phi^{-1} \left(0\ldotp 025\right),\Phi^{-1} \left(0\ldotp 975\right)\right)=\left(-1\ldotp 96,1\ldotp 96\right)$
확률 분포가 $N\left(\mu ,\sigma^2 \right)\;$ 일 때, 95% 구간은 $\left(\mu -1\ldotp 96\sigma ,\mu +1\ldotp 96\sigma \right)$ 이 된다.
'Statistical Machine learning' 카테고리의 다른 글
[Statistical ML]이항 분포, 베르누이 분포 (0) | 2021.04.18 |
---|---|
[Statistical ML]Mean and variance 평균과 분산 (0) | 2021.04.18 |
[Statistical ML]확률 분포 - Probability distribution/pmf/pdf (0) | 2021.04.17 |
[Statistical ML]확률의 규칙(Basic probability rules) (0) | 2021.04.17 |
[Statistical ML]Probability - 주변 확률,결합 확률,조건부확률 (0) | 2021.04.17 |