지도학습, 비지도학습

Hyun·2024년 1월 21일
0

머신러닝/딥러닝

목록 보기
3/5

지도학습

"정답 라벨이 있는" 데이터를 활용해 데이터를 학습시키는 것이다. 입력값(X data) 이 주어지면 입력값에 대한 Label(Y data)를 주어 학습시키며 대표적으로 분류, 회기 문제가 있다.

지도학습의 종류

1) 분류(Classification): discrete한 value로 분류
분류는 주어진 데이터를 정해진 카테고리(라벨)에 따라 분류하는 문제를 말한다. 분류는 맞다, 아니다 등의 이진 분류 문제 또는 사과다 바나나다 포도다 등의 2가지 이상으로 분류하는 다중 분류 문제가 있다.

예를 들어 입력 데이터로 메일을 주고 라벨을 스팸메일이다, 아니다 를 주면 모델은 새로운 메일이 들어올 때 이 메일이 스팸인지 아닌지 분류할 수 있게 된다.

2) 회기(Regression): continuous한 value를 예측
회기는 어떤 데이터들의 Feature를 기준으로, 연속된 값(그래프)을 예측하는 문제로 주로 어떤 패턴이나 트렌드, 경향을 예측할 때 사용된다.즉 답이 분류처럼 1, 0 이렇게 딱 떨어지는것이 아니고 어떤 수나 실수로 예측될 수 있다.

예를 들어 서울에 있는 20평대 아파트 집값, 30평대 아파트 집값, 지팡의 20평대 아파트 집값 등을 입력데이터로 주고 결과를 주면, 어떤 지역의 30평대 아파트 가격이 어느정도인지 예측할 수 있게 된다.

비지도학습

지도학습과는 달리 "정답 라벨이 없는" 데이터를 비슷한 특징끼리 군집화하여 새로운 데이터에 대한 결과를 예측하는 방법. 각각 라벨을 달아주는 인간의 수고를 덜기 위해 제시되었다. 라벨링 되어있지 않은 데이터로부터 패턴이나 형태를 찾아야 하기 때문에 지도학습보다는 조금 더 난이도가 있다.

대표적인 방법으로는 클러스터링이 있다. 클러스터링은 라벨링이 되어있지 않은 데이터들을 비슷한 특징이나 패턴을 가진 데이터들끼리 군집화한 후, 새로운 데이터가 어떤 군집에 속하는지를 추론한다.

profile
better than yesterday

0개의 댓글