서술형대비 - EDA3

duri·2024년 2월 17일
0

ADP

목록 보기
14/18

기초통계분석

통계분석방법론

1. 상관분석

2. ttest


3. ANOVA

개념

두개 이상의 집단에서 그룹 평균 간 차이를 그룹 내 변동에 비교하여 확인. 두 집단들의 평균이 유의미한 차이를 가지는가?

3-1) 일원배치 분산분석

y값에 미치는 하나의 범주형 변수의 영향을 파악하기 위해 F검정 통계량을 사용한다.

요건

  • 각 집단은 독립적
  • 각 집단은 정규분포를 따른다
  • 각 집단은 등분산성을 가진다.

3-2) 이원배치 분산분석

y값에 미치는 두개의 범주형 변수의 영향을 파악하기 위해 F 검정 통계량을 사용한다.
이때 두 범주형 변수간에 상관관계가 있는지(교호작용)를 살펴보는 검증이 반드시 진행되어야 한다.

요건

  • 각 집단은 독립적
  • 각 집단은 정규분포를 따른다
  • 각 집단은 등분산성을 가진다.

summary(aov(box_off_num ~ genre, data = data))
#교호작용 파악 안함
summary(aov(box_off_num ~ genre+distributor, data=data))
#교호작용 제외
summary(aov(box_off_num ~ genre+distributor+genre:distributor, data=data))

검증결과

박스오피스 넘버에 대한 장르의 분산분석결과 유의수준 0.05에 비추어 p값이 더 작으므로 귀무가설을 기각한다. 즉 장르에 따라 박스오피스 넘버가 유의하게 달라진다는 것이다.

그렇다면 박스오피스 넘버에 대한 장르와 배급사에 대한 분산분석 결과는 어떻게 봐야할까?

우선 교호작용을 판단하지 않은 분산분석 검증 결과는 다음과 같다

장르는 박스오피스 넘버에 대해 유의한 영향을 미치지만 배급사는 그렇지 않다.

교호작용을 확인하기 위해 새로운 검정을 한 결과는 다음과 같다.

계속해서 장르는 종속변수에 대해 유의한 결과를 나타내지만 배급하는 그렇지 않다. 두 변수가 서로에게 미치는 교호작용은 genre:distributor의 p값을 확인하면 된다. 이때 두 값의 p값은 1로 귀무가설을 기각한다. 즉 두 변수간 영향은 없다는 것이다.


3-3) 다원배치 분산분석

y값에 미치는 세개 이상의 범주형 변수의 영향을 파악한다.

3-4) 다변량 분산분석

2개 이상의 y값에 미치는 1개 이상의 범주형 변수의 영향을 파악한다.

profile
배우는중인 두리

0개의 댓글