(1) 산점도 그리기
title 'Scatter Plot'; data max1; input y x; lines; 1.54 132.0 1.74 135.5 1.32 127.7 1.50 131.1 1.46 130.0 1.35 127.6 1.53 129.6 1.71 138.1 1.27 126.6 1.50 131.8 run; proc sort data=max1; by x; run; proc gplot data=max1; plot y*x / haxis=125 to 140 by 1 vaxis=1.2 to 1.8 by 0.1; symbol h=0.6 v=dot; run;
(2) 단순회귀모형 적합
title 'LINE FITTING'; proc reg data=max1; model y=x; run;
(3) 산점도 위에 적합선 그리기
title 'Scatter Plot and Fitted Line'; proc gplot data=max1; plot y*x / haxis=125 to 140 by 1 vaxis=1.2 to 1.8 by 0.1; symbol h=0.6 v=dot i=rl; /*여기가 겹쳐서 그리기의 핵심*/ run;
title 'T-VALUE AND CONFIDENCE INTERVAL'; proc reg data=max1; model y=x; run; data tvalue; alpha=0.05; df=8; t=tinv(1-alpha/2, df); #tinv함수가 t(p-value, df)구해줌. llimit=0.0407-t*0.00465 ulimit=0.0407+t*0.00465 run; proc print data=tvalue(keep=t llimit ulimit); run;
data max1; input y x; cards; 1.54 132.0 1.74 135.5 1.32 127.7 1.50 131.1 1.46 130.0 1.35 127.6 1.53 129.6 1.71 138.1 1.27 126.6 1.50 131.8 run; prog reg data=max1; model y=x; model y=; run;
https://pages.stat.wisc.edu/~yandell/software/sas/linmod.html

(1) 키가 135cm일 때의 평균반응(점추정값)
data max1; input y x; cards; 1.54 132.0 1.74 135.5 1.32 127.7 1.50 131.1 1.46 130.0 1.35 127.6 1.53 129.6 1.71 138.1 1.27 126.6 1.50 131.8 . 135 run; proc reg data=max1; model y=x / p; id x; run;(2) 두 경우 각각의 95% 신뢰구간
title 'CONFIDENCE INTERVALS'; proc reg data=max1; model y=x / clm cli alpha=0.05; /*cl(mean), cl(i)-개별치*/ id x; run;(3) 두 경우의 신뢰대(confidence band) 겹쳐서 그리기
proc gplot data=max1; plot y*x=1 y*x=2 / haxis=125 to 140 by 1 vaxis=1.2 to 1.8 by 0.1 overlay; run;V(Mu)의 값이 X-XBAR에서 가장 작아지는 것을 생각,
각각 어떤 것이 '신뢰대'일지 '예측대'일지 판단해보기
proc reg data=max1; model y=x; run;기본적인 회귀 코드만 작성하면 SST, SSE, SSR각각을 확인할 수 있으므로,
R^2 = SSR/SSTO임을 기억
r(상관계수) vs R^2(결정계수) 비교
상관계수(r)
- 두 변수의 상관성을 나타내는 척도임.
- 항상 -1과 1 사이에 있음 ( -1 ≤ r ≤ +1)
- 상관 계수 값이 -1 또는 1일 경우 이는 두 변수가 완전한 직선 관계임을 뜻함.
- 점들이 직선에 얼마나 모여 있는가를 나타냄.
- 이상점이 있을 경우, 이에 영향을 받음
- │r│ ≥ 0.65 일때 의미가 있음
결정계수(Coefficient of Determination,R2)
- 총변동중에서 회귀선에 의해 설명이 되는 변동이 차지하는 비율
- R2(R-Sq)의 범위는 0≤ R2 ≤ 1
- X와 Y간의 상관관계가 클수록 R2(R-Sq)의 값은 1에 가까와짐
- R2(R-Sq)의 값이 0에 가까워 질수록 회귀선은 쓸모가 없고, R2(R-Sq)의 값이
클수록 (R2≥0.65) 쓸모있는 회귀식이 된다
인자가 하나일때는 상관계수의 제곱값과 결정계수값이 같습니다.
수정결정계수
- 결정계수는 상향편의 된 추정치 이므로 표본 결정계수의 값은 항상 모집단의
결정계수보다 클 수 밖에 없음. 따라서, 보다 정확한 추정치를 얻기 위해서는
수정결정계수를 사용해야 함.- 수정결정계수의 값은 결정계수보다는 작고 때에 따라서는 음의 값도 나타날 수 있음
- 표본의 크기가 200개 이상일 때는 두 결정계수의 차이가 미미함.
- 표본이 200개 미만일 때는 반드시 수정결정계수를 보고서에 포함해야 함
(독립변수가 2개 이상이면 수정결정계수를 본다)
- 그냥 proc reg data=max1; 과정으로 R-square(결정계수) 값 확인하고 제곱근 씌우기
- proc corr 사용
proc corr data=max1 nosimple; var y x; run;
noint(절편 지나지 않게), p가 없어도 돌아가는데 왜 있는건가?
proc reg data=max1; model y=x / noint p clm cli; id x; run;
data sales; input y x; lny=log(y); cards; 2.5 1.0 2.6 1.6 2.7 2.5 5.0 3.0 5.3 4.0 9.1 4.6 14.8 5.0 17.5 5.7 23.0 6.0 28.0 7.0 run; proc reg data=sales; model y=x; model lny=x; run;실제로 결정계수(R^2)의 유의미한 증가