[R] 결측치 정제하기

imacusirius·2021년 8월 9일
0

R

목록 보기
11/16

결측치

누락된 값, 비어 있는 값 의미

  • R에서는 NA로 표기

결측치 찾기

  • is.na(변수명) 으로 결측치 확인

    • 결측치 있을 경우: TRUE
    • 결측치 없을 경우: FALSE
  • table(is.na(변수)) 형태로 사용하면 개수 출력

  • 결측치는 데이터 프레임 전체가 아닌, 개별 변수마다 확인해야 함

    • is.na(데이터프레임$확인할변수) 형태로 사용
  • 결측치가 포함된 데이터에 함수 적용하면 NA 출력

결측치 제거

  • 한 번에 제거는 na.omit() 함수 사용

    • 결측치가 하나라도 있으면 무조건 삭제 → 필요한 데이터도 삭제할 수 있음

함수의 결측치 제외 기능

mean() 등의 수치 연산 함수는 결측치를 제외하고 연산 수행하는 na.rm 파라미터를 지원

  • na.rmTRUE로 설정하면 결측치를 제외하고 함수를 적용
  • 모든 함수가 다 na.rm을 적용하진 X → 적용 안 될 경우 filter()로 제거한 후 적용

결측치 만들기

데이터프레임[c(행), "변수명"] <- NA

평균값으로 결측치 대체

  1. 결측치 제외한 평균값 구하기
mean(데이터프레임$변수명, na.rm=T)
  1. NA값을 평균값으로 대체
df$변수 <- ifelse(is.na(df$변수), 평균값, df$math)

0개의 댓글