본문 바로가기

Statistical Machine learning

[Statistical ML]지도 학습 - supervised learning/분류,회귀

'통계 기반 머신러닝' Statistical Machine learning 수업을 듣고 정리한 포스팅입니다.※

머신 러닝이란?

Def. from Arthur Samuel(1959) :
Field of study that gives computers the ability to learn without being explicitly programmed
컴퓨터에게 명시적으로 프로그래밍 하지 않고도 배울 수 있는 능력을 주는 학문 분야

Def. from Tom Mitchell(1998) :
Well-posed Learning problem - A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves E
- 여기서 T는 수행할 작업(Task)
- P는 퍼포먼스를 측정하는 것
- E 는 T에 관련한 경험
즉, T의 task에 기반해 성과 P를 측정하고, 경험E를 향상시키는 것입니다.


학습의 종류는 크게 다음과 같습니다. 이번 포스팅에서는 지도 학습의 Classification(분류)와 Regression(회귀)에 대해서 포스팅하고자 합니다.

Learning의 종류

먼저 Statistical Machine learning에서의 Supervised learning,지도학습이 쓰이는 경우는 어떤 경우일까요?

1)Prediction of future cases :
미래의 Input에 대해서 Output(출력)을 예측하는 데 쓰입니다

2)Knowledge extraction :
이해하기 쉬운 규칙(Rule)

3)Compression :
규칙(Rule)이 data 그 자체를 설명하는 것 보다 간단할 때

4)Outlier detection :
규칙(Rule)에 의해서 커버되지 않는 예외 경우들

 

Supervised Learning의 종류

 1. Classification '분류'

말 그대로 주어진 데이터에서 '분류'가 목적일 때 사용합니다. Discrete한 결과를 예측하죠. 많은 예시에서 고양이과 개를 분류하는 것 등의 예시를 사용하지만, Credit scoring을 예로 들어보겠습니다.


예시) Credit scoring
고객들의 수입과 저축현황으로부터 Low-risk(저위험)과 High-risk(고위험)을 구별하는 것

$\mathrm{If}\;\mathrm{income}\;{>\Theta }_1 \;\mathrm{AND}\;\mathrm{savings}>\Theta_2$

$\mathrm{THEN}\;\mathrm{low}-\mathrm{risk}$

$\mathrm{ELSE}\;\mathrm{high}-\mathrm{lisk}$

$\mathrm{END}$

2. Regression '회귀'

회귀는 Classification과 다르게 연속적인 값을 예측 할 때 사용합니다. 아래 그림에서도 Linear한 input과 output의 관계를 가지고 있는 것을 볼 수 있습니다. 

예시)x축 년도(age)에 따른 중고차 가격 y 를 나타낼 때