Galton의 데이터
- 패키지 UsingR
- 데이터 galton에는 부모의 키, 자식의 키에 대한 927개의 관측치가 있다.
- 부모의 키는 (아버지의 키 + 1.08*엄마의 키)/2
- 자료출처는 여기에

| 대리점 | 광고비(백만원) | 판매수익(천만원) |
|---|---|---|
| 1 | 2 | 8 |
| 2 | 3 | 9 |
| 3 | 6 | 18 |
| 4 | 4 | 17 |
| 5 | 7 | 21 |
| 6 | 4 | 14 |
| 7 | 8 | 27 |
| 8 | 6 | 22 |
c <- c(2,3,6,4,7,4,8,6)
s <- c(8,9,10,17,21,14,27,22)
df <- data.frame(cost=c, sales=s)
cor(df)
A matrix: 2 × 2 of type dbl
cost sales
cost 1.0000000 0.8167395
sales 0.8167395 1.0000000
library(ggplot2)
p <- ggplot(df, aes(cost, sales))
p + geom_point(size=3, color='blue')
cor.test(df$cost, df$sales)
Pearson's product-moment correlationdata: dfsales
t = 3.4672, df = 6, p-value = 0.01335
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.2640181 0.9656486
sample estimates:
cor
0.8167395
회귀직선 – 모델링 -> 예측치
- 회귀직선의 방정식은 𝒚=𝟑𝒙+𝟐로 이는 광고비가 1(백만원) 늘어나면, 판매수익이 3(천만원) 늘어난다는 것을 의미한다.
- 예측치: 예를 들어 광고비가 5(백만원)이라면 예상되는 판매수익은 𝟑×𝟓+𝟐=𝟏𝟕(천만원)
library(ggplot2)
p <- ggplot(df, aes(cost, sales))
p + geom_point(size=3, color='blue') + geom_smooth(method = 'lm', formula = 'y~x')
reg <- lm(sales ~ cost, data=df)
reg
# 회귀분석
summary(reg)
Call:
lm(formula = sales ~ cost, data = df)
- Coefficients:
(Intercept) cost
2.333 2.733
회귀직선의 계수는 reg$coefficients에
첫번째가 y절편
두번째가 기울기
geom_abline()은 직선을 y절편과 기울기로 그려주는 함수
회귀직선의 계수는 reg$coefficients에
첫번째가 y절편
두번째가 기울기
geom_abline()은 직선을 y절편과 기울기로 그려주는 함수
![]() | ![]() |
|---|


🚀 주의
회귀분석 lm 사용시 lm(y ~ x, data=df)
위와 같이 하지 않으면 예측치를 구하지 못함
회귀직선의 방정식: 𝒚=𝟐+𝟑𝒙
광고비가 1(백만원) 늘어나면, 판매수익이 3(천만원) 늘어난다는 것을 의미한다.
예측치: 광고비가 5(백만원)이라면 예상되는 판매수익은 𝟐+𝟑×𝟓=𝟏𝟕(천만원)이다.
?women



![]() | ![]() |
|---|
𝑦=𝛽_0+𝛽_1 𝑥+𝛽_2 𝑥^2+𝜖

![]() | ![]() |
|---|
| formula | 구성 내용 |
|---|---|
| y~x | y = a + bx 모형 구성 |
| y~x-1 | y = bx 절편이 없는 모형 구성 |
| y~1/x | y = 절편항(평균) |
| y~x1+x2 | y = a + b1x1 + b2x2 모형 구성 |
| y~x1*x2 | y = a + b1x1 + b2x2 + b3x1x2 (x1, x2의 교호작용을 고려한 모형 구성) |
| y~x1+x2+x1:x2 | y = a + b1x1 + b2x2 + b3x1x2 (x1, x2의 교호작용을 고려한 모형 구성) |
| y~(x1+x2+x3)^2 | y = a + b1x1 + b2x2 + b3x3 + b4x1x2 + b5x1x3 + b6x2x3 |
| y~(x1+x2+x3)^3 | y = a + b1x1 + b2x2 + b3x3 + b4x1x2 + b5x1x3 + b6x2x3 + b7x1x2x3 |
| y~x1+I(x1^2) | y = a + b1x1 + b2x1^2 |
| y~1/(1/x) | y = a + b1x |
| y~x1 | z |
| y~., data=dd | y = a + b1x1 + b2x2 ... 모형 구성 (dd라는 이름의 data, 종속변수 y를 지정, 이외 모든 변수는 설명변수) |