결측치(Missing Value)
- 0이 아닌 값
- NA: Not Available
- NaN: Not a Number
- Null: Nothing
발생하는 이유
- 실제로 값을 입력하지 않은 경우
- 설문조사 특정 질문에 미응답
- 데이터 오류
문제가 되는 이유
- 데이터의 손실을 불러온다
- 데이터 편향이 발생할 수 있다
- 분석된 결과가 부정확할 수 있다.
대체하기
1. 평균으로 대체하기
- 변수의 결측값을 평균값으로 대체한다
- 평균값이 가장 좋은 대체재라는 관점
- 하지만 불확실성을 제거하기엔 무리
2. 완전 제거하기
- 결측치를 가진 값을 제거하기
- 데이터 편향이 발생할 수 있다.
3. 회귀대체법