240508 TIL #393 AI Tech #8 결측치처리 / 이상치 처리

김춘복·2024년 5월 8일
0

TIL : Today I Learned

목록 보기
393/571

Today I Learned

오늘도 AI 공부!


결측치 처리

  • 결측치(missing value) : 데이터셋에서 특정 변수 또는 데이터 포인트가 값이 없거나 측정되지 않은 상태

  • 결측치가 있는 데이터는 분석에 방해가 될 수 있으며 이를 처리하지 않으면 모델의 성능이 저하될 수 있기 때문에 결측치 처리는 중요하다.

  • 결측치는 random하게 발생할 수도 있고, 어떤 패턴이나 rule이 보일 수도 있다.

  • 어떤 pattern이 보이면 그 패턴에 따라 실제 값을 예측해 채우면 된다.

random하게 결측치 발생 시 처리 방법

  • Univariate
  1. 제거 : 결측치가 발생한 데이터나 변수 자체를 제거(행이나 열을 제거). 너무 많은 결측치가 포함된 경우 데이터의 일부가 손실될 수 있으며, 이는 모델의 성능을 저하시킬 수 있다.
  2. 평균값, 중위값, 상수값 삽입
    이 방법은 분포나 상관관계가 망가질 수 있다.
  • Multivariate : 시간과 노력이 많이 소모
  1. 회귀 분석
    주변 변수나 예측 모델을 사용해 결측치를 예상해서 채우는 방법
  2. KNN nearest
    결측치가 발생한 샘플과 가장 유사한 샘플을 참고해 채우는 방법

이상치 처리

  • 이상치 : 일반적인 데이터와 크게 다른 데이터. outlier

이상치 탐색 방법

  1. Z-Score
    데이터 포인트가 평균으로부터 얼마나 표준 편차만큼 떨어져 있는지를 나타내는 지표
    (변수-평균)/표준편차로 계산하며 일반적으로 -2~2를 초과한 95% 신뢰 구간 밖의 데이터를 이상치로 본다.
  2. IQR
    데이터의 상위 25%(Q3)와 하위 25%(Q1) 사이의 범위.
    보통 Q1 - 1.5 X IQR ~ Q3 + 1.5 X IQR을 벗어나면 이상치로 본다.

이상치 처리 관점

  • 정성적 측면 : 이상치의 발생 이유와 의미에 대해 생각한 후 처리

  • 성능적 측면 : Train 과정에서 이상치라고 판단된 것이 Test 데이터에서도 발견되고 이를 이상치로 판단해 제거하면 모델의 예측력이 떨어진다.


본 포스트의 학습 내용은 부스트클래스 <AI 엔지니어 기초 다지기 : 부스트캠프 AI Tech 준비과정> 강의 내용을 바탕으로 작성되었습니다.

profile
Backend Dev / Data Engineer

0개의 댓글