menu

머신러닝 지도 학습, 비지도 학습, 분류, 회귀란?

지도 학습과 비지도 학습 

머신러닝을 공부할 때 학습이라는 개념을 항상 접하게 됩니다. 학습이란 데이터를 특별한 알고리즘에 적용해 머신러닝 모델을 정의된 문제에 최적화하는 과정을 의미합니다. 

지도 학습

지도 학습이란 정답을 알려주면서 진행되는 학습입니다. 따라서 학습 시 데이터와 함께 레이블(정답)이 항상 제공돼야 합니다. 지도 학습을 공부하다 보면 정답, 실제값, 레이블, 타깃, 클래스, y값이라는 단어가 많이 혼용되지만 같은 의미입니다. 주로 주어진 데이터와 레이블을 이용해 새로운 데이터의 레이블을 예측해야 할 때 사용됩니다. 머신러닝 모델을 통해 예측된 값을 예측값, 분류값, y_hat 등으로 많이 표현합니다. 테스트할 때는 데이터와 함께 레이블을 제공해서 손쉽게 모델의 성능을 평가할 수 있다는 장점이 있습니다. 하지만 데이터마다 레이블을 달기 위해 많은 시간을 투자해야 한다는 단점 또한 있습니다. 지도 학습의 예로는 분류와 회귀가 대표적입니다. 

비지도 학습 

비지도 학습이란 레이블(정답)이 없이 진행되는 학습입니다. 따라서 학습할 때 레이블 없이 데이터만 필요합니다. 보통 데이터 자체에서 패턴을 찾아내야 할 때 사용됩니다. 레이블이 없기 때문에 모델 성능을 평가하는 데에는 다소 어려움이 있습니다. 하지만 따로 레이블을 제공할 필요가 없다는 장점이 있습니다. 비지도 학습의 대표적인 예로는 군집화와 차원 축소가 있습니다. 

분류와 회귀 

분류와 회귀의 가장 큰 차이점은 데이터가 입력됐을 때 분류는 분리된 값으로 예측하고, 회귀는 연속된 값으로 예측한다는 데 있습니다. 날씨로 예를 들자면, 분류는 덥다, 춥다와 같이 분리된 값으로 예측하는 반면 회귀는 30.5도, 3.5도와 같이 연속된 수치 값으로 예측합니다. 

분류 

분류는 데이터가 입력됐을 때 지도 학습을 통해 미리 학습된 레이블 중 하나 또는 여러 개의 레이블로 예측하는 것입니다. 

이진 분류 

예/아니오, 남자/여자와 같이 둘 중 하나의 값으로 분류하는 경우 이진 분류라고 부릅니다. 

다중 분류 

빨강, 녹색, 파랑 중 하나의 색으로 분류하거나, 0부터 9까지의 손글씨 숫자 중 하나의 숫자로 분류하기처럼 여러 개의 분류값 중에서 하나의 값으로 예측하는 문제를 다중 분류라고 부릅니다. 

다중 레이블 분류 

데이터가 입력됐을 때 두 개 이상의 레이블로 분류할 경우 다중 레이블 분류라고 합니다. 예를 들어, 분류값으로 세모, 네모 동그라미가 있을 경우 아래와 같은 그림이 입력값으로 들어오면 다중 레이블 분류 모델의 예측값은 동그라미, 세모가 되고, 다중 분류는 동그라미와 세모와 네모 중 더 높은 확률을 지닌 레이블로 예측하게 됩니다. 

회귀

회귀는 입력된 데이터에 대해 연속된 값으로 예측합니다. 예를 들어, 날씨를 더움, 보통, 추움이라는 3가지로만 예측하는 분류와 달리, 회귀는 35도, 34.5도, 34도와 같이 정해진 레이블이 아닌 연속성을 가진 수치로 예측합니다.