[데이터분석 데브코스] TIL Day 10 - Excel을 이용한 다양한 데이터 분석 실습 (5)

콩이·2024년 3월 1일

📍 결측치

결측치

  • 결측치는 0이 아닌 값으로, 언어별로

    1) NA(Not Available) - 유효하지 않음
    2) NaN(Not a Number) - 숫자가 아닌
    3) Null - 아무것도 존재하지 않음

    으로 불림.

결측치가 발생하는 이유

1) 실제로 값을 입력하지 않은 경우

2) 설문조사 특정 질문에 무응답

3) 데이터 오류

결측치는 다음과 같은 문제 야기

  • 결측치는 데이터 손실을 불러올 수 있음.

  • 결측치 대체에 따라 데이터에서 편향이 생길 수 있음.

  • 결측치 처리에 따라 데이터 분석 결과가 매우 달라질 수 있음.

따라서 데이터 분석 시작할 때 많이 고민하는 부분

결측값 대체하기

결측값 대체하는 여러가지 방법이 있지만 대표적인거 몇 개만 정리

1) 평균으로 대체하기

  • 변수의 결측값을 평균값으로 대체

  • 특정 정보가 존재하지 않을 경우 평균값이 가장 좋은 샘플이라는 논리에 기인

  • 정보의 손실은 줄어들 수 있으나, 결측치에 대한 불확실성을 고려하지 못함(예를 들어 age의 평균값이 35라고 할 때, 실제 값이 1인 상황).

2) 완전 제거하기

  • 결측치가 포함된 값을 분석 대상에서 제거하기

  • 분석에서 편향이 발생할 가능성이 낮음

  • 정보의 손실 및 검정력 약화 문제 야기 가능성 존재

3) 회귀 대체법

  • 회귀 방정식을 통해 결측값을 예측값으로 대체하는 방법

  • 변수의 특성에 따라 회귀식을 구성해 예측력 향상 꾀함

  • 이 방법 또한 결측치에 대한 불확실성을 고려하지 못함

0개의 댓글