[R데이터분석] 연속형 자료분석

근이의 개발일기·2024년 12월 9일

R데이터분석 (2-2 데이터분석및실습 강소영교수님)

목록 보기

5/17

연속형 자료분석

연속형 자료는 값이 연속적인 데이터를 다루는 것으로, 주로 수치형 데이터입니다. 연속형 자료를 분석할 때는 데이터의 분포(정규성 여부)에 따라 적합한 분석 방법을 선택해야 합니다. 아래는 정규성 검정, 모수 및 비모수 분석, 선형회귀분석과 상관계수를 고려한 분석 방법에 대한 설명입니다.

1️⃣ 정규성 검정

정규성 검정의 목적

데이터가 정규분포를 따르는지 확인.
정규성을 만족하면 모수적 방법을 사용하고, 정규성을 만족하지 않으면 비모수적 방법을 사용.

정규성 검정 방법

Shapiro-Wilk Test (shapiro.test())
- 작은 샘플에서 많이 사용(샘플 크기 ≤ 5000).
- p-value ≥ 0.05: 정규성을 만족.
- p-value < 0.05: 정규성을 만족하지 않음.
```
shapiro.test(data$variable)
```
Kolmogorov-Smirnov Test
- 정규분포와의 차이를 검정.
- 샘플 크기가 크면 민감하게 반응.
QQ Plot
- 데이터의 분포가 정규분포를 따르는지 시각적으로 확인.
```
qqnorm(data$variable)
qqline(data$variable, col = "red")
```

2️⃣ 모수적 방법 (Parametric Methods)

모수적 분석의 조건

데이터가 정규분포를 따르고, 표본의 크기가 충분히 큰 경우.
평균과 분산에 대한 가정을 기반으로 분석.

주요 모수적 분석 기법

t-test

두 그룹의 평균 비교.

독립표본 t-test:

t.test(group1, group2, var.equal = TRUE)

대응표본 t-test:
```
t.test(before, after, paired = TRUE)
```

ANOVA (분산분석)

세 그룹 이상의 평균 비교.

aov_result <- aov(value ~ group, data = data)
summary(aov_result)

Pearson 상관분석 → cor.test
- 두 변수 간의 선형 관계를 측정(정규성 만족 시).
```
cor(data$var1, data$var2, method = "pearson")
```

3️⃣ 비모수적 방법 (Non-Parametric Methods)

비모수적 분석의 조건

데이터가 정규분포를 따르지 않거나, 표본 크기가 작고 정규성을 만족하지 않을 때.
데이터의 순위 정보(서열)를 활용.

주요 비모수적 분석 기법

Mann-Whitney U Test → wilcox.test
- 두 그룹 간 중앙값 차이를 비교(독립표본).
```
wilcox.test(group1, group2)
```
Wilcoxon Signed-Rank Test → wilcox.test
- 같은 집단의 전후 차이를 비교(대응표본).
```
wilcox.test(before, after, paired = TRUE)
```
Kruskal-Wallis Test
- 세 그룹 이상의 중앙값 비교. → kruskal.test
```
kruskal.test(value ~ group, data = data)
```
Spearman 상관분석 → cor.test
- 두 변수 간의 비선형 관계를 측정(정규성 만족하지 않을 때).
```
cor(data$var1, data$var2, method = "spearman")
```

4️⃣ 선형회귀분석

선형회귀분석의 목적

독립 변수와 종속 변수 간의 선형 관계를 모델링.
상관계수가 높으면 선형 관계가 강하다고 볼 수 있음.

회귀분석 방법

단순 선형회귀
- 하나의 독립 변수와 종속 변수 간의 관계 분석.
```
model <- lm(y ~ x, data = data)
summary(model)
```
다중 선형회귀
- 여러 독립 변수와 종속 변수 간의 관계 분석.
```
model <- lm(y ~ x1 + x2 + x3, data = data)
summary(model)
```
잔차 분석
- 회귀 모델의 적합도를 평가하기 위해 잔차가 정규성을 만족하는지 확인.
```
plot(model)
```

5️⃣ 상관계수에 따른 분석 선택

상관계수의 범위

1.0에 가까움: 매우 강한 상관관계.
0.5~1.0: 강한 상관관계.
0.3~0.5: 중간 수준의 상관관계.
0.1~0.3: 약한 상관관계.
0.0~0.1: 거의 상관관계 없음.

상관계수에 따른 해석

상관계수가 높은 경우:
- 선형회귀 모델을 적용해 변수 간 관계를 설명 가능.
- 예: lm(y ~ x, data = data).
상관계수가 낮은 경우:
- 변수 간 선형 관계가 없을 가능성이 높음.
- 비선형 회귀분석 또는 상관분석(스피어만) 사용.
상관계수가 중간 정도인 경우:
- 추가적인 데이터 탐색 필요.
- 변수 변환(log, sqrt 등)을 통해 선형 관계를 도출 가능.

요약: 분석 선택 가이드

데이터 조건	분석 방법
정규성 만족	모수적 방법 (t-test, ANOVA, Pearson 상관분석)
정규성 불만족	비모수적 방법 (Mann-Whitney, Kruskal-Wallis, Spearman)
변수 간 관계 분석	Pearson 상관분석 (정규성 만족) / Spearman 상관분석 (정규성 불만족)
예측 모델링	단순/다중 선형회귀분석

근이의 개발일기

SSU 21 CSE

다음 포스트