ADP 서술형 문제 유형 1번
데이터와 기초 통계 정보를 주고 분석 방법 및 인사이트 도출 방식을 서술하라고 하는 것.
예시 )
붓꽃의 종류를 분류하기 위한 방법을 제시하시오.
결과물로부터 얻을 수 있는 인사이트를 예시를 사용해 설명하시오
그래서 유형별 순서대로 포맷을 숙지하고자 한다. 연습한만큼 쓸 수 있다.
당연한 말이겠지만 기본적으로 데이터의 모양을 파악하는 것이 먼저다.
hist(iris$Sepal.Length)
boxplot(iris$Sepal.width)
요건
붓꽃 입의 길이와 넓이 간의 상관관계
1. 상관계수와 공분산
cov(iris$Sepal.Width,iris$Sepal.Length)
cor(iris$Sepal.Width,iris$Sepal.Length)
cor.test(iris$Sepal.Length,iris$Sepal.Width,method="pearson")
상관분석 결과 두 변수의 p-값은 유의 수준인 0.05를 넘는 0.15로 두 변수간의 상관관계는 없다.
부분상관관계
영향을 미칠 수 있는 다른 변수들의 영향을 통제한 후 두 변수 간의 순수한 상관관계
예) 키와 몸무게 간에는 양의 상관관계가 있다.
키와 몸무게는 연령의 영향을 받으므로, 연령의 영향을 통제한 후 키와 몸무게의 상관관계를 조사한 결과 더 작은 상관관계를 가지는 것으로 나타난다.
install.packages("ppcor")
pcor.test(iris$Sepal.Width,iris$Sepal.Length, iris$Petal.Length)
줄기 길이의 영향을 배제한 결과 상관계수가 0.578로 영향을 배제하지 않은 상관계수인 -0.117과 다르게 나왔다.
요건
개념
두 서열 변수의 순위의 일치도를 파악한다. 단조적 관계를 나타낸다.
cor.test(iris$Sepal.Length,iris$Sepal.Width,method="spearman")
상관분석결과 두 변수의 상관계수는 p-값은 유의수준인 0.05 이하인 0.04이므로 유의한 상관관계가 있다.