[R데이터분석] 연속형 자료분석

근이의 개발일기·2024년 12월 9일
post-thumbnail

연속형 자료분석

연속형 자료는 값이 연속적인 데이터를 다루는 것으로, 주로 수치형 데이터입니다. 연속형 자료를 분석할 때는 데이터의 분포(정규성 여부)에 따라 적합한 분석 방법을 선택해야 합니다. 아래는 정규성 검정, 모수 및 비모수 분석, 선형회귀분석과 상관계수를 고려한 분석 방법에 대한 설명입니다.


1️⃣ 정규성 검정

정규성 검정의 목적

  • 데이터가 정규분포를 따르는지 확인.
  • 정규성을 만족하면 모수적 방법을 사용하고, 정규성을 만족하지 않으면 비모수적 방법을 사용.

정규성 검정 방법

  1. Shapiro-Wilk Test (shapiro.test())

    • 작은 샘플에서 많이 사용(샘플 크기 ≤ 5000).
    • p-value ≥ 0.05: 정규성을 만족.
    • p-value < 0.05: 정규성을 만족하지 않음.
    shapiro.test(data$variable)
    
  2. Kolmogorov-Smirnov Test

    • 정규분포와의 차이를 검정.
    • 샘플 크기가 크면 민감하게 반응.
  3. QQ Plot

    • 데이터의 분포가 정규분포를 따르는지 시각적으로 확인.
    qqnorm(data$variable)
    qqline(data$variable, col = "red")
    

2️⃣ 모수적 방법 (Parametric Methods)

모수적 분석의 조건

  • 데이터가 정규분포를 따르고, 표본의 크기가 충분히 큰 경우.
  • 평균과 분산에 대한 가정을 기반으로 분석.

주요 모수적 분석 기법

  1. t-test
    • 두 그룹의 평균 비교.
    • 독립표본 t-test:
      t.test(group1, group2, var.equal = TRUE)
    • 대응표본 t-test:
      t.test(before, after, paired = TRUE)
  2. ANOVA (분산분석)
    • 세 그룹 이상의 평균 비교.
      aov_result <- aov(value ~ group, data = data)
      summary(aov_result)
  3. Pearson 상관분석 → cor.test
    • 두 변수 간의 선형 관계를 측정(정규성 만족 시).
      cor(data$var1, data$var2, method = "pearson")

3️⃣ 비모수적 방법 (Non-Parametric Methods)

비모수적 분석의 조건

  • 데이터가 정규분포를 따르지 않거나, 표본 크기가 작고 정규성을 만족하지 않을 때.
  • 데이터의 순위 정보(서열)를 활용.

주요 비모수적 분석 기법

  1. Mann-Whitney U Test → wilcox.test
    • 두 그룹 간 중앙값 차이를 비교(독립표본).
      wilcox.test(group1, group2)
      
  2. Wilcoxon Signed-Rank Test → wilcox.test
    • 같은 집단의 전후 차이를 비교(대응표본).
      wilcox.test(before, after, paired = TRUE)
      
  3. Kruskal-Wallis Test
    • 세 그룹 이상의 중앙값 비교. kruskal.test
      kruskal.test(value ~ group, data = data)
      
  4. Spearman 상관분석 → cor.test
    • 두 변수 간의 비선형 관계를 측정(정규성 만족하지 않을 때).
      cor(data$var1, data$var2, method = "spearman")
      

4️⃣ 선형회귀분석

선형회귀분석의 목적

  • 독립 변수와 종속 변수 간의 선형 관계를 모델링.
  • 상관계수가 높으면 선형 관계가 강하다고 볼 수 있음.

회귀분석 방법

  1. 단순 선형회귀
    • 하나의 독립 변수와 종속 변수 간의 관계 분석.
      model <- lm(y ~ x, data = data)
      summary(model)
      
  2. 다중 선형회귀
    • 여러 독립 변수와 종속 변수 간의 관계 분석.
      model <- lm(y ~ x1 + x2 + x3, data = data)
      summary(model)
  3. 잔차 분석
    • 회귀 모델의 적합도를 평가하기 위해 잔차가 정규성을 만족하는지 확인.
      plot(model)

5️⃣ 상관계수에 따른 분석 선택

상관계수의 범위

  • 1.0에 가까움: 매우 강한 상관관계.
  • 0.5~1.0: 강한 상관관계.
  • 0.3~0.5: 중간 수준의 상관관계.
  • 0.1~0.3: 약한 상관관계.
  • 0.0~0.1: 거의 상관관계 없음.

상관계수에 따른 해석

  1. 상관계수가 높은 경우:
    • 선형회귀 모델을 적용해 변수 간 관계를 설명 가능.
    • 예: lm(y ~ x, data = data).
  2. 상관계수가 낮은 경우:
    • 변수 간 선형 관계가 없을 가능성이 높음.
    • 비선형 회귀분석 또는 상관분석(스피어만) 사용.
  3. 상관계수가 중간 정도인 경우:
    • 추가적인 데이터 탐색 필요.
    • 변수 변환(log, sqrt 등)을 통해 선형 관계를 도출 가능.

요약: 분석 선택 가이드

데이터 조건분석 방법
정규성 만족모수적 방법 (t-test, ANOVA, Pearson 상관분석)
정규성 불만족비모수적 방법 (Mann-Whitney, Kruskal-Wallis, Spearman)
변수 간 관계 분석Pearson 상관분석 (정규성 만족) / Spearman 상관분석 (정규성 불만족)
예측 모델링단순/다중 선형회귀분석

0개의 댓글