[DevCourse] Day 10 - Excel을 활용한 데이터 분석 실습(5)

한상우·2023년 12월 1일
0

Data Science Devcourse

목록 보기
10/25

결측치

  • 결측치(Missing Value) : 유효하지 않거나, 아무것도 존재하지 않는 값. (0과는 다르다)

결측치가 발생하는 경우

  • 실제로 값을 입력하지 않은 경우
  • 설문조사의 경우 특정 질문에 미응답한 경우
  • 데이터의 오류
  • ...

결측치의 처리 방법

  • 결측치는 데이터의 손실을 불러오며, 불확실성을 가지고 있다. 결측치를 어떻게 처리하냐에 따라 데이터의 편향이 생기거나 분석 결과가 매우 달라질 수 있음

  • 평균으로 대체하기 : 변수의 결측값을 평균값으로 대체

    • 특정 정보가 존재하지 않을 경우 평균값이 가장 좋은 샘플이라는 논리에 기인
    • 정보의 손실을 막을 수 있으나, 결측치에 대한 불확실성을 고려하지는 못한다
  • 완전 제거하기 : 결측치가 포함된 값을 분석 대상에서 제거하기

    • 분석에서 편향이 발생할 가능성이 줄어듦
    • 정보의 손실 및 검정력 약화 문제가 있음
  • 회귀대체법 : 회귀 방정식을 통해 결측값을 예측값으로 대체하는 방법

    • 변수의 특성에 따라 회귀식을 구성하여 예측력 향상을 꾀함
profile
개인 공부용 블로그입니다

0개의 댓글

관련 채용 정보