[R] 기술통계량

주연쓰·2023년 4월 21일
0

[R] 데이터분석

목록 보기
4/17
  • 척도가 계량형(numeric, integer)인 변수 대상
  • 내장함수인 mean, var, sd 쓸 때 관측값들 중 NA있는지 확인, 제거 후에 계산해야함

0. NA 값 존재여부 검사

  • freq, is.na 사용
freq(is.na(데이터프레임명$변수명))
  • True : NA 값 존재

1. summary

  • 여섯가지 기술 통계량 알 수 있음
  • Min(최솟값), 1st Qu(1사분위수-하위 25%), Median(중간값), Mean(평균), 3rd Qu(3사분위수-상위 25%), Max(최댓값)
  • NA 있을 경우 NA 개수 알려줌

2. mean 함수 (평균)

  • 내장함수

(1) na.rm = T

  • 기술통계량 계산 시, NA 값은 빼고 계산

3. var 함수 (분산)

  • 내장함수

(1) na.rm = T

  • 기술통계량 계산 시, NA 값은 빼고 계산

4. sd 함수(표준편차)

  • 내장함수

(1) na.rm = T

  • 기술통계량 계산 시, NA 값은 빼고 계산

5. describe 함수

describe(데이터프레임명)

  • psych 패키지의 함수
  • vars(분산), n(관측값 갯수), mean(평균), sd(표준편차), median(중앙값), trimmed(상하위 10%를 제위한 값), mad(mean absolute deviation)('측정값-평균값'의 절대값의 평균), skew(왜도), kurtosis(첨도)
  • 출력 변수 옆에 * 붙어있는 경우 = 정량적 변수가 아닌 경우 (문자형, 범주형 등) => 무시
  • 변수 하나만에 대해서도 가능 describe(데이터프레임명$변수명)

    (1) 통계량 저장

    저장할데이터프레임명 <- describe(데이터프레임명)
    • 오른쪽 environment 에 descr 데이터프레임 생김

profile
( •̀ ω •́ )✧

0개의 댓글