결측치/결측값 (missing value) 처리 방법

아현·2023년 9월 18일
0

데이터분석

목록 보기
1/2
post-thumbnail

참고1, 참고2

결측치란?


결측치란 말 그대로 데이터에 값이 없는 것을 뜻한다.

  • 줄여서 NA라고도 하고, Null 이라는 표현도 쓴다.

이러한 결측치는 데이터 분석하는데 있어 매우 방해가 된다.

  • 결측치를 다 제거하면 막대한 데이터 손실을 부를 수 있다.

  • 결측치를 잘못 대체하면 데이터에서 편향이 생길 수 있다.

  • 결측치 처리에 분석가의 견해가 가장 많이 반영되고 분석결과가 매우 틀어질 수 있다.

결측치를 어떻게 추론해서 분석하느냐에 따라서 비지니스 의사결정이 달라질 것이다.

  • 의사결정을 하는데 정확한 인사이트를 제공하기 위해서 데이터 조사 단계로 돌아가 결측치가 아닌 실제 값들을 채우는 것이 가장 좋은 방법이지만 현실은 절대 그럴 수 없다.



결측치 처리 테크닉


  1. 제거하기 & 삭제하기 (Deletion)

  2. 채우기 & 보간하기 (Imputation)


1) 제거하기 (Deletion)




2) 채우기 (Imputaion)




profile
Studying Computer Science

0개의 댓글