: 출력값이 범주형(label)인 지도학습 문제
클러스터링과의 차이점
- 분류는 입력 데이터를 하나 이상의 미리 정의된 클래스 중 하나로 예측하는 문제이다.
가중치는 사람이 규칙처럼 정하는 값이 아님!
score=w1x1+w2x2+⋯+wnxn+b
- 모델은 정답(label)이 있는 데이터를 보고
- 예측과 실제의 차이(Loss)를 계산한 뒤
- 그 차이가 줄어들도록 가중치를 조금씩 조정한다
이 과정을 반복하면서,
- 어떤 피처가 정답을 잘 설명하면 → 가중치 크기 ↑
- 정답과 반대로 작용하면 → 가중치 부호가 음수로 이동
- 의미 없는 피처면 → 가중치가 0에 가까워짐
가중합으로 만든 점수를 "확률"로 바꿔서 분류하는 모델
score=w1x1+w2x2+⋯+wnxn+b
해당 score는 -5, 3.2, 17 같은 아무 범위의 숫자라서 "폐업 확률이 73%다"처럼 해석할 수 없음.
그래서 score를 그대로 쓰지 않고 확률로 바꾸는 과정이 필요함 -> Logistic Regression
시그모이드 함수: P(y=1∣x) = 1 / (1 + e-score)

score를 시그모이드 함수에 통과시키면 아무 범위의 점수(score)가 항상 0과 1 사이의 값으로 변환됨.
예시
이때 score = 0은 확률이 0.5가 되는 기준선이며,
모델이 클래스를 나누는 결정 경계(decision boundary)가 됨.
따라서 로지스틱 회귀에서 분류란,
결국 로지스틱 회귀는 선형 모델로 만든 점수를 사람이 해석할 수 있는 “확률”로 바꿔주는 분류 모델임.
| 구분 | 내용 |
|---|---|
| 장점 | 확률 출력 가능, threshold 조절 쉬움, 계수 해석 가능, 안정적인 baseline |
| 단점 | 비선형 관계 한계, 이상치에 민감, 고차원 sparse 데이터에서 약할 수 있음 |
| 언제 쓰나 | 확률/점수화가 필요할 때, 설명 가능성이 중요할 때, tabular 데이터 |
| 핵심 튜닝 | 정규화 강도, L1/L2, class_weight |
정규화 강도
L1 / L2 정규화
class_weight
딥러닝 분류 모델의 출력층은 로지스틱 회귀 구조를 따름.
로지스틱 회귀에서도 log loss와 gradient 기반 학습이 사용되지만,
이 단계에서는 “왜 이런 구조가 필요한지”를 이해하는 것이 목적임.
실제로 loss를 미분하고 가중치를 업데이트하는 구체적인 계산은
딥러닝에서 훨씬 일반화되고 본격적으로 다뤄짐.
- 로지스틱 회귀: "각 공이 빨강일 확률을 계산해서 0.5 넘으면 빨강, 아니면 파랑"
- Linear SVM: 선은 하나만 긋는데, 그 선이 어떤 공에도 너무 가까이 가지 않게 최대한 안전한 위치에 긋기
경계(margin)에 있는 점 = Support Vector
| 구분 | 내용 |
|---|---|
| 장점 | 마진 최대화로 경계 안정적, 이상치에 상대적으로 강함, 고차원 sparse에 강함 |
| 단점 | 확률 제공 안 함, 해석력 낮음, C에 민감, 스케일링 필수 |
| 언제 쓰나 | 확률 필요 없고 분류 정확도가 중요할 때, 텍스트 분류 |
| 핵심 튜닝 | C, feature scaling, (필요 시) probability calibration |
| 비교 기준 | Logistic Regression | Linear SVM |
|---|---|---|
| 출력 | 확률 | 클래스 |
| 목표 | 확률 정확도 | 경계 안정성 |
| 이상치 | 민감 | 상대적으로 강함 |
| 고차원 sparse | 보통 | 강함 |
| 공통 특징 | |
|---|---|
| 모델 형태 | 선형 score = w·x + b |
| 최적화 | convex → 학습 안정적, 재현성 좋음 |
| 정규화 | L1/L2로 복잡도 제어 |
| 피처 의존 | 피처 엔지니어링 품질이 성능 좌우 |
: "피처들이 서로 독립"이라고 가정하고, 베이즈 정리로 클래스 확률 계산!
P(y∣x)∝P(y)i∏P(xi∣y)
: 새 데이터가 들어오면 가장 가까운 k개 이웃의 라벨을 보고 다수결로 클래스 결정

: 클래스별 데이터가 정규분포를 따른다고 가정하고, 클래스 간 분리를 최대화하는 선형 투영을 학습하는 지도학습 분류 모델

데이터 + 라벨로 클래스별 평균, 공분산 계산
최적 투영 방향 w 계산
모든 점을 그 방향으로 투영
투영된 값 기준으로 클래스 결정
: 피처 조건(if-then)을 순차적으로 나누어 데이터를 가장 잘 구분하는 규칙을 학습하는 규칙 기반 지도학습 분류 모델

기본 구조
나이 < 30 ?
├─ YES → 소득 > 5000 ?
│ ├─ YES → 클래스 A
│ └─ NO → 클래스 B
└─ NO → 클래스 C불순도: 한 노드 안에서 클래스가 얼마나 섞여 있는지를 수치로 표현한 것

핵심 하이퍼파리미터
특징
| 모델 | 핵심 기준 | 언제 특히 좋나 | 왜 이 모델을 쓰나 | 장점 | 단점 | 필수 전처리 |
|---|---|---|---|---|---|---|
| Logistic Regression | 확률 | tabular, 설명 필요 | 확률 기반 의사결정 필요 | 확률 제공, 해석 쉬움, 안정적 | 비선형 약함 | 스케일링(권장) |
| Linear SVM | 경계 | 텍스트, 고차원 sparse | 안정적인 경계 필요 | 마진 최대화, 이상치에 강함 | 확률 없음 | 스케일링 필수 |
| Naive Bayes | 확률+가정 | 텍스트 baseline | 빠른 초기 성능 확인 | 매우 빠름, 데이터 적어도 OK | 독립 가정 강함 | 거의 불필요 |
| KNN | 거리 | 소규모 실험 | 구조 탐색/직관 확인 | 비선형 가능, 개념 단순 | 느림, 차원의 저주 | 스케일링 필수 |
| LDA | 분포 | 분포 깔끔한 tabular | 통계적 최적 분리 | 이론적 깔끔함 | 가정 깨지면 붕괴 | 스케일링(권장) |
| Decision Tree | 규칙 | tabular, 관계 중요 | 피처 조합 규칙 필요 | 비선형, 해석 가능 | 과적합 심함 | 거의 불필요 |