Residual Analysis: Plotting and Analysing Residuals

calico·2025년 11월 28일

Artificial Intelligence

목록 보기
132/143

https://wikidocs.net/120321

https://m.blog.naver.com/domodal/223130595694

https://kr.mathworks.com/help/curvefit/residual-analysis.html

Residual(잔차)이란 무엇인가


Residual은 실제값(data)에서 모델이 예측한 값(fit 또는 ŷ)을 뺀 값이다.

r=yy^r = y − ŷ
  • 잔차는 모델이 얼마나 잘 맞았는지를 직접적으로 보여준다.

    • 모델이 맞지 않으면 잔차 패턴이 “규칙성”을 띠고 나타난다.



Residual Plot에서 무엇을 확인하는가


잔차 플롯은 모델 적합도를 가장 직관적으로 보여준다.

  • 잔차가 0 근처에 무작위로 흩어짐 → 모델 적합

  • 잔차가 곡선, 증가·감소, 특정 구간 패턴 → 모델 부적합

  • 잔차 패턴이 있으면 신뢰구간·예측구간도 모두 왜곡됨

잔차 플롯은 언제나 첫 번째로 봐야 하는 검증 도구다.



1차식과 2차식 모델의 잔차 비교


1차식(linear)의 경우

  • 잔차가 0 주변에 고르게 퍼져 있음
  • 모델이 데이터 형태를 잘 설명함

2차식(quadratic, 상수·선형항 없이 x²만 사용)의 경우

  • 잔차가 특정 영역에서 양·음으로 치우침
  • 명백한 패턴 → 모델 구조가 잘못됨
  • 즉, 이 모델은 데이터를 제대로 설명하지 못함

이 예시는 잔차 패턴이 모델 부적합을 바로 알려준다는 핵심을 보여준다.



Cubic 모델과 5차식 모델 비교 예제


데이터는 실제로 3차식(cubic) 구조로 생성되었음.



Cubic(poly3) 모델


  • 잔차: 랜덤하게 흩어짐

  • 계수 신뢰구간: 좁아서 정확함

  • Prediction bounds: 전체 구간에서 안정적

  • 결론: 데이터 생성 과정과 잘 일치하는 모델



5차식(poly5) 모델


  • 잔차: 언뜻 보면 랜덤해 보이지만

  • 계수 신뢰구간: 매우 넓음 → 모델 불안정

  • Prediction bounds: 데이터 없는 구간에서 크게 벌어짐

  • 원인: 고차항이 많아 과적합(overfitting) 발생

  • 결론: 시각적으로 비슷해도 실제 예측은 불안정한 모델

이 사례의 핵심은 “잔차만 보면 괜찮아 보여도, 신뢰구간·예측구간을 보면 과적합이 드러날 수 있다”는 점이다.



실무에서 Residual Analysis를 활용하는 방법


실무에서는 다음 절차로 모델을 검증한다.

  1. Residual Plot 확인

    • 패턴이 있는지 여부는 모델 적합도 판단의 1차 기준.
  2. 계수 신뢰구간 확인

    • 고차항일수록 신뢰구간이 넓어져 계수가 불안정해질 수 있음.
  3. Prediction bounds(예측 구간) 확인

    • 특히 데이터가 없는 구간에서 폭발적 증가 여부 체크

    • 과적합 여부를 직관적으로 파악 가능

  4. Goodness-of-fit 지표(R², RMSE 등)

    • 보조적인 참고 지표

    • 단독으로 모델 적합 여부를 판단해서는 안 됨



핵심 요약


  • Residual = y − ŷ

  • 잔차가 랜덤하면 → 모델 적합

  • 잔차에 패턴 나타나면 → 모델 부적합

  • 고차식 모델은 시각적으로 좋아 보여도 예측 불안정성이 큼

  • 잔차 플롯 + 신뢰구간 + 예측구간을 종합해야 정확한 모델 평가가 가능



profile
https://velog.io/@corone_hi/posts

0개의 댓글