서술형대비 - EDA

duri·2024년 2월 16일
0

ADP

목록 보기
12/18

ADP 서술형 문제 유형 1번
데이터와 기초 통계 정보를 주고 분석 방법 및 인사이트 도출 방식을 서술하라고 하는 것.

예시 )
붓꽃의 종류를 분류하기 위한 방법을 제시하시오.
결과물로부터 얻을 수 있는 인사이트를 예시를 사용해 설명하시오

그래서 유형별 순서대로 포맷을 숙지하고자 한다. 연습한만큼 쓸 수 있다.

기초통계 파악하기

당연한 말이겠지만 기본적으로 데이터의 모양을 파악하는 것이 먼저다.

summary()를 활용하여

  1. 중심위치의 척도
  • 중앙값
  • 평균
  • 최빈값
  1. 산포도의 척도
  • 분산
  • 표준편차
  • 사분위수 범위
  • 사분위수
  • 백분위수
  • 변동계수
  • 평균의 표준오차
  1. 분포의 형태의 척도
  • 왜도 skewness : m3 >0 오른꼬리
  • 첨도 : m4 >0 더뾰족
  1. 그래프이용
  • 히스토그램
hist(iris$Sepal.Length)

  • 산점도
  • 상자그림
boxplot(iris$Sepal.width)

통계 분석 방법론

1. 상관분석

피어슨 상관계수

요건

  • 두 변수가 모두 등간 변수 이상일것
  • 두 변수는 직선관계일것
  • 두 변수는 모집단에서 정규분포를 가질 것

붓꽃 입의 길이와 넓이 간의 상관관계
1. 상관계수와 공분산

cov(iris$Sepal.Width,iris$Sepal.Length)
cor(iris$Sepal.Width,iris$Sepal.Length)

  1. 상관분석 : t 검정통계량
cor.test(iris$Sepal.Length,iris$Sepal.Width,method="pearson")


상관분석 결과 두 변수의 p-값은 유의 수준인 0.05를 넘는 0.15로 두 변수간의 상관관계는 없다.


부분상관관계
영향을 미칠 수 있는 다른 변수들의 영향을 통제한 후 두 변수 간의 순수한 상관관계
예) 키와 몸무게 간에는 양의 상관관계가 있다.
키와 몸무게는 연령의 영향을 받으므로, 연령의 영향을 통제한 후 키와 몸무게의 상관관계를 조사한 결과 더 작은 상관관계를 가지는 것으로 나타난다.

install.packages("ppcor")
pcor.test(iris$Sepal.Width,iris$Sepal.Length, iris$Petal.Length)

줄기 길이의 영향을 배제한 결과 상관계수가 0.578로 영향을 배제하지 않은 상관계수인 -0.117과 다르게 나왔다.

스피어만 상관계수

요건

  • 두 변수가 서열 변수인 경우
  • 두 변수가 직선관계를 가지지 않는 경우
  • 두 변수가 모집단에서 정규분포를 가지는지 알 수 없는 경우

개념
두 서열 변수의 순위의 일치도를 파악한다. 단조적 관계를 나타낸다.


cor.test(iris$Sepal.Length,iris$Sepal.Width,method="spearman")

상관분석결과 두 변수의 상관계수는 p-값은 유의수준인 0.05 이하인 0.04이므로 유의한 상관관계가 있다.

profile
배우는중인 두리

0개의 댓글