30일차 머신러닝3

차지예·2025년 6월 25일

생성AI

목록 보기
24/56
post-thumbnail

1️⃣ 모델 진단 (Model Diagnosis)

모델 진단은 머신러닝 모델의 성능 저하 원인을 분석하고, 적절한 개선 방향을 찾기 위한 과정입니다.

주요 목적

  • 모델이 과적합인지 과소적합인지 판단
  • 데이터 추가 또는 모델 구조 변경 여부 결정

주요 지표

  • 훈련 오류 (Training Error)

    Training Error=1mtraini=1mtrainL(y^(i),y(i))\text{Training Error} = \frac{1}{m_{train}} \sum_{i=1}^{m_{train}} \mathcal{L}(\hat{y}^{(i)}, y^{(i)})
  • 검증 오류 (Validation Error)

    Validation Error=1mvali=1mvalL(y^(i),y(i))\text{Validation Error} = \frac{1}{m_{val}} \sum_{i=1}^{m_{val}} \mathcal{L}(\hat{y}^{(i)}, y^{(i)})

진단 해석

  • 훈련 오류와 검증 오류 모두 높음 → 과소적합 (Underfitting)
  • 훈련 오류는 낮고 검증 오류는 높음 → 과적합 (Overfitting)

2️⃣ Bias / Variance

머신러닝 모델의 예측 오류는 크게 Bias(편향)Variance(분산) 의 합으로 설명할 수 있습니다.

총 오차 구성

Total Error=Bias2+Variance+Irreducible Error\text{Total Error} = \text{Bias}^2 + \text{Variance} + \text{Irreducible Error}
구분설명증상해결 방법
Bias (편향)모델이 너무 단순하여 패턴을 포착 못함훈련/검증 오류 모두 큼모델 복잡도 ↑
Variance (분산)모델이 데이터에 너무 민감훈련 오류 ↓, 검증 오류 ↑데이터 증가, 정규화, Dropout 등

Bias-Variance 타겟 다이어그램

Low VarianceHigh Variance
Low Bias🎯 중앙에 집중: 정확하고 안정적인 예측🎯 중앙 주변 분산: 정확하지만 불안정한 예측
High Bias🎯 멀리 있지만 집중: 부정확하나 일관됨🎯 멀리서 흩어짐: 부정확하고 불안정한 예측

Bias와 Variance의 영향

상태BiasVariance결과
Low Bias, Low Variance🎯 최적
High Bias, Low Variance과소적합
Low Bias, High Variance과적합
High Bias, High Variance성능 저하

3️⃣ 학습 곡선 (Learning Curve)

학습 곡선은 훈련 데이터의 양에 따른 모델의 훈련 및 검증 성능을 시각화한 것입니다.

  • X축: 훈련 데이터 개수
  • Y축: 오류 값 (Training/Validation Error)

일반적 패턴

상황Training ErrorValidation Error개선 방안
과소적합둘 다 높음둘 다 높음모델 복잡도 증가
과적합낮음높음데이터 증가, 정규화 적용

수식 표현

Training Error(데이터 증가 시 지속적으로 감소)Validation Error 후 일정 수준에서 수렴\begin{aligned} &\text{Training Error} \searrow \quad \text{(데이터 증가 시 지속적으로 감소)} \\ &\text{Validation Error} \searrow \text{ 후 일정 수준에서 수렴} \end{aligned}
  • 과소적합: 두 에러 모두 높은 위치에서 수렴
  • 과적합: 두 에러 사이 간격이 큼

4️⃣ 서포트 벡터 머신 (SVM: Support Vector Machine)

SVM은 두 클래스 사이의 마진(Margin) 을 최대화하여 최적의 결정 경계를 학습하는 분류 알고리즘입니다.

핵심 개념

  • Margin: 결정 경계와 가장 가까운 데이터 포인트(서포트 벡터) 간의 거리
  • Support Vectors: 마진에 위치한 데이터 포인트들

목적 함수 (Hard Margin)

minw,b 12w2subject to y(i)(wTx(i)+b)1\min_{\mathbf{w}, b} \ \frac{1}{2} \|\mathbf{w}\|^2 \\ \text{subject to } \quad y^{(i)}(\mathbf{w}^T \mathbf{x}^{(i)} + b) \geq 1
  • ( \mathbf{w} ): 결정 경계의 방향 벡터
  • ( b ): 절편

Soft Margin

  • 실제 데이터는 완벽하게 분리되지 않기 때문에 일부 오차 허용
  • 슬랙 변수(ξ)를 도입하여 제한된 오류 허용

커널 트릭 (Kernel Trick)

SVM은 커널 함수를 사용하여 비선형 데이터도 선형적으로 분리 가능한 고차원 공간으로 사상합니다.

대표 커널 함수

  • Polynomial Kernel

    K(x,x)=(xTx+c)dK(\mathbf{x}, \mathbf{x'}) = (\mathbf{x}^T \mathbf{x'} + c)^d
  • RBF (Gaussian) Kernel

    K(x,x)=exp(xx22σ2)K(\mathbf{x}, \mathbf{x'}) = \exp\left(-\frac{\|\mathbf{x} - \mathbf{x'}\|^2}{2\sigma^2}\right)
  • Sigmoid Kernel

    K(x,x)=tanh(αxTx+c)K(\mathbf{x}, \mathbf{x'}) = \tanh(\alpha \mathbf{x}^T \mathbf{x'} + c)

✅ 전체 요약

항목설명해결 방법
모델 진단에러를 통해 과적합/과소적합 판단학습 곡선, 에러 비교
Bias / Variance예측 오류의 원인 분석모델 복잡도 및 데이터 조절
학습 곡선데이터 크기에 따른 에러 시각화모델의 일반화 여부 분석
SVM최대 마진 분류기커널로 비선형 문제 해결

0개의 댓글