회귀분석 예제

hottogi·2022년 11월 4일
0

1. product.csv 파일의 데이터를 이용하여 다음의 단계별로 다중 회귀분석을 수행하시오.

1단계: 학습데이터(train), 검정데이터(test)를 7:3비율로 샘플링
변수모델링: y변수는 제품만족도, x변수는 제품적절성과 제품_친밀도
2단계: 학습데이터 이용 회귀모델 생성
3단계: 검정데이터 이용 모델 예측치 생성
4단계: 모델 평가: cor()함수 이용

# 1
setwd("c://Rwork")
data <- read.csv("dataset2/product.csv")

x <-sample(1:nrow(data), 0.7 * nrow(data))
train <- data[x, ]
test <- data[-x, ]

model <- lm(formula = 제품_친밀도 ~ 제품_적절성 + 제품_만족도, data = train)
summary(model)

head(train, 1)

pred <- predict(model, test)
pred

cor(pred, test$제품_만족도)

2. ggplot2 패키지에서 제공하는 diamonds 데이터 셋을 대상으로 carat, table, depth 변수 중에서 다이아몬드의 가격(price)에 영향을 미치는 관계를 다중회귀 분석을 이용하여 예측하시오.

조건1: 다이아몬드 가격 결정에 가장 큰 영향을 미치는 변수는?
조건2: 다중회귀 분석 결과를 정(+)과 부(-)관계로 해설

# 2
library(ggplot2)
data(diamonds)

result <- lm(formula = price ~ carat + table + depth, data=diamonds)
summary(result) 

# 조건1: 다이아몬드 가격 결정에 가장 큰 영향을 미치는 변수는?
# carat

# 조건2: 다중회귀 분석 결과를 정(+)과 부(-)관계로 해설
# price에 carat은 정의 관계, table과 depth는 부의 관계를 가진다.
profile

0개의 댓글

관련 채용 정보