정답 레이블 정보를 활용해 알고리즘을 학습하는 학습 방법론
• 이 방법으로 학습되는 알고리즘은
데이터와 정답인 레이블 사이의 관계를 파악하는 목적을 갖고 있음
지도학습에서 풀어야 될 문제는 크게 두가지로 회귀문제와 분류문제가 있다.
문제 (Task)란?
지도 학습에서 흔히 다루는 대표적인 두 문제
예측값이 정확하게 숫자로 나와야 되는 것을 회귀문제라고 한다.
주관식과 비슷한 형태!
입력으로 주어지는 데이터를 정해진 보기 중 하나로 분류하는 문제
보기 : 클래스(Class) 라고 함.
분류 문제의 세분화 : 주어진 클래스의 수 & 모델이 결과로 출력하는 수 등에 따라 나뉨
이진 분류 문제 : 주어지는 클래스가 2 개인 경우

다중 클래스 문제 : 모델이 여러 클래스를 내보내야 하는 경우
- 예를 들어, 고양이 → 동물, 포유류,갈색 등과 같이 여러 종류로 분류

이건 시험에서 5지선다형 객관식 문제와 비슷하다!
분류 문제와 회귀 문제를 비교해보자면
내일 온도를 예측 = 회귀
내일 날씨를 예측 = 분류(맑음, 비, 흐림, 눈 중 택1) 으로 할 수 있다.
내일 주식의 가격을 예측한다면 : 회귀
내일 주식의 등락을 예측한다면 : 분류 (오른다, 내린다)
사진에 나온 사람의 나이를 예측한다면 : 회귀
사진에 나온 사람의 나이대를 예측한다면 : 분류 (10대, 20대, 등등.. )
즉,
분류는 보기 중 선택의 문제!
회귀는 정확한 숫자 값을 찾는 문제!
데이터는 3가지로 나눠서 사용해야 된다.
시험을 보는 학생의 공부 방법을 잠깐 생각해보자
모의고사는 시험과는 다름
머신 러닝 모델도 비슷하게 이론지, 모의고사, 시험을 활용
이것 각각들의 이름은
순수하게 학습을 하는 과정에서 사용하는 데이터

학습을 진행하는 중간 과정에서
머신 러닝 모델이 어느 정도 학습 되었는지를 주기적으로 확인하는데 사용하는 데이터

최후의 머신 러닝 모델이 생성된 후, 학습한 모델의 최종 성능을 평가하기 위해 사용되는 데이터
학습의 과정과는 별도의 과정


머신러닝 모델이 특정 훈련 데이터에 지나치게 학습되어
새로운 데이터나 테스트 데이터에서 잘 작동하지 않는 상태를 의미
이런 상태를 일반화 능력(generalization)이 떨어진 상태라고 표현
학습 데이터에 포함된 특정 패턴이나 디테일 그리고 작은 노이즈까지 학습
과적합은 머신 러닝 모델이 경계해야하는 현상이며
이를 해결하기 위해 아래와 같은 방법들이 존재
- 데이터 양 늘리기
- 머신 러닝 모델의 복잡도를 줄이기
- 규제와 같은 정규화 기법 사용하기
머신 러닝 모델이 얼마나 잘 하고 있는지 또는 못하고 있는지를 수치화한 손실(Loss)을 구하는 함수
다시 말해, 모델의 예측값과 실제 정답 사이의 차이를 측정하는 지표
일반적으로, 손실(Loss)이 작을수록 모델의 성능이 좋다고 볼 수 있음
머신 러닝 모델의 파라미터란 해당 모델이 내부적으로 갖고 있는 변수를 의미
이 변수는 모델이 데이터로부터 학습하는 패턴 관계를 표현하며 모델의 예측 성능에 직접적인 영향을 미침
파라미터의 구조와 조합은 모델마다 다양하며 이 변수의 값은 학습의 과정으로 찾아야 함
최적화란 머신 러닝에서 모델의 성능을 최대화하거나, 오류를 최소화하기 위해
모델의 파라미터를 조절하는 과정을 의미
즉, Loss 값이 최소가 되는 파라미터를 찾는 것을 목표로 함
최적화 적용 과정은 머신 러닝 모델에 따라 상이할 수 있음
로지스틱 회귀 (Logistic Regression)
• 이진 분류 문제에 적합한 구조
• 확률을 직접 예측하는 확률 추정 접근으로 결과를 예측
결정 트리 분류기 (Decision Tree Classifier)
• 데이터를 잘 분할하는 결정 트리를 사용하여 분류를 수행
• 직관적이고 이해가 쉬움
랜덤 포레스트 (Random Forest)
• 여러 결정 트리의 결합으로 앙상블 기법에 해당
• 높은 정확도를 보이면서도 과적합 문제를 방지함
서포트 벡터 머신 (Support vector Machine, SVM)
• 데이터를 최적으로 분리하는 결정 경계를 찾는데 강력한 알고리즘
• 어려운 형태의 데이터라도 비선형 계산이 가능한 다양한 커널 트릭있어 해를 구할 수 있음

요런식으로 분류해줌.
선형 회귀 (Linear Regression)
• 기본적이고 널리 사용되는 회귀 알고리즘
• 독립 변수와 종속 변수 간의 선형 관계를 모델링
라쏘 회귀 혹은 릿지 회귀 (Lasso & Ridge Regression)
• 규제 기법을 이용해 과적합을 방지하고 일반화 성능이 향상된 선형 모델
결정 트리 회귀 (Decision Tree Regression)
• 결정 트리를 이용해 회귀 문제에 적용
서포트 벡터 회귀 (Support Vector Regression, SVR)
• 분류 모델인 SVM을 회귀에 적용한 알고리즘
K-최근접 이웃 회귀 (K-Nearest Neighbors Regression)
• 주어진 데이터 포인트에서 가장 가까운 K개의 이웃 데이터의 평균으로 예측값을 결정
• 간단하면서도 데이터 자체만을 활용한 추정(비모수적 추정)이 가능