[빅분기] 분석 모형 선택

당당·2023년 11월 7일

빅분기

목록 보기

4/7

R을 이용해 분석 모형을 선택해보자

table(x)
범주형 데이터의 빈도수 탐색 함수

length(x)
전체 범주형 데이터의 개수

백분율 및 비율 : table함수의 결과에서 length함수로 나누어 구함

summary(object)
요약 통계량 탐색 함수

수치형인 경우 : 최솟값, Q1, 중위수, 평균, Q3, 최댓값 등
범주형인 경우 : 범주별 빈도수

describe(x)
요약 통계량 탐색 함수(데이터 개수, 절사 평균 포함)

library(psych)필요

범주형-범주형 데이터 탐색
: table함수를 이용해 빈도수와 비율 활용

수치형-수치형 데이터 탐색
: 상관계수로 상관관계 파악 (피어슨 상관계수)

cor(x, y, method)
method 기본값은 "pearson" "spearman"은 스피어만 순위 상관계수 "kendall"은 켄달 순위 상관계수

피어슨 상관계수 : 두 변수가 연속형 자료일 경우 사용, 정규성 만족 가정
스피어만 순위 상관계수 : 두 변수가 순서적 데이터일 경우 사용, 정규성 만족 X
켄달 순위 상관계수 : 두 변수가 순서적 데이터일 경우 사용
- x가 증가시 y도 증가하면 부합, x증가시 y 감소하면 비부합
- τ=(C-D)/(C+D) , C: 부합 쌍의 수, D : 비부합 쌍의 수