[10일차]데이터분석-Excel을 활용한 다양한 데이터 분석(5)

isnotnull·2023년 12월 1일

결측치

0이 아닌 값

  • NA : Not Available (유효하지 않음)
  • NaN : Not a Number (숫자가 아닌)
  • Null : 아무것도 존재하지 않음

결측값 대체하기

1. 평균으로 대체하기

  • 변수의 결측값을 평균값으로 대체
  • 특정 정보가 존재하지 않을 경우 평균값이 가장 좋은 샘플이라는 논리에 기인
  • 정보의 손실은 줄어들 수 있으나, 결측치에 대한 불확실성을 고려하지 못함

2. 완전제거하기

  • 결측치가 포함된 값을 분석 대상에서 제거
  • 분석에서 편향이 발생할 가능성이 적음
  • 정보의 손실 및 검정력 약화 문제 야기 가능성 존재

3. 회귀대체법

  • 회귀 방정식을 통해 결측값을 예측값으로 대체
  • 변수의 특성에 따라 회귀식을 구성해 예측력 향상을 꾀함

0개의 댓글