[DevCourse] 11-2 지도학습 기초

한상우·2024년 1월 30일

Data Science Devcourse

목록 보기

20/25

데이터를 분할하기 & ML 기초 용어

학습 데이터(train data) : 순수하게 학습 과정에서 사용하는 데이터. 보통 전체 데이터의 8할정도로 사용한다.
검증 데이터 (validation data) : 학습을 진행하는 중간 과정에서 모델의 학습 상태를 주기적으로 확인하는 데이터. 보통 전체 데이터의 1할정도로 사용한다.
평가 데이터 (test data) : 학습을 완료한 후 모델의 최종 성능을 평가하기 위한 데이터. 보통 전체 데이터의 1할 정도로 사용한다.

손실 함수 (Loss Function) : ML 모델의 예측값과 실제 정답 사이의 차이를 측정하는 지표. 일반적으로 손실(Loss)이 작을수록 모델의 성능이 좋다고 볼 수 있다.
- 따라서, ML 모델 학습과정인 Loss를 줄이는 과정으로 진행된다
Loss Function은 Task의 종류에 따라 달라진다
- Regression : 평균 제곱 오차 (MSE)
- Classification : 교차 엔트로피 (Cross Entropy)
- Binary Classification : 로그 손실 (Log Loss)
- etc
Parameter : ML 모델이 내부적으로 갖고 있는 변수. 모델이 데이터로부터 학습하는 패턴 관계를 표현하며, 모델의 성능에 직접적인 영향을 미친다. Parameter의 구조와 조합은 모델마다 다르다. 학습하는 과정은 Parameter의 값을 찾는 과정이라고 볼 수 있다.
최적화 : Parameter를 조절해가며 최적의 값(Loss값이 최소가 되는 값)을 찾아내는 과정이다.

Task에 따른 지도학습의 분류

회귀 문제 (Regression problem) : 주어진 입력 데이터에 대해 연속적인 숫자값을 예측하는 문제 (서술형 문제와 비슷)
- ex) 내일 서울의 온도는 ?
분류 문제 (Classification problem) : 주어진 입력 데이터가 어떤 Class에 속하는지를 판별하는 문제 (이지/오지선다와 비슷)
- 이진 분류 문제 : Class의 범주가 2개인 경우. ex) 고양이 vs 강아지
- 다중 클래스 문제 : Class의 범주가 여러개인 경우 ex) 선풍기, 고양이, 개구리, ...

분류 문제의 종류

로지스틱 회귀 (Logistic Regression) : Binary Classification에 적합. 확률을 직접 예측하는 확률 추정 접근으로 결과를 예측.
결정 트리 분류기 (Decision Tree Classifier) : 데이터를 잘 분할하는 결정 트리를 사용하여 분류를 수행
랜덤 포레스트 (Random Forest) : 여러 결정 트리를 결합(앙상블 모델)하여 사용. 높은 정확도를 보이며, 과적합 문제를 방지해준다.
SVM (Support Vector Machine) : 데이터를 최적으로 분리하는 결정 경계를 찾는 알고리즘

회귀 문제의 종류

선형 회귀 (Linear Regression) : 독립 변수와 종속 변수 간의 선형 관계를 모델링
라쏘 / 릿지 회귀 (Lasso / Ridge Regression) : 규제 기법을 이용해 과적합을 방지하고, 일반화 성능이 향상된 선형 모델
결정 트리 회귀 (Decision Tree Regression) : 결정 트리를 이용해 회귀 문제에 적용
SVR (Support Vector Regression) : SVM을 회귀에 적용
KNN Regression (K-Nearest Neighbors Regression) : 주어진 데이터 포인트에서 가장 가까운 K개의 이웃 데이터의 평균으로 예측값을 결정

개인 공부용 블로그입니다