제일 높은 1등은 등위점수 1, 순위중복되면 같은 등위점수끼리의 평균값으로 rs=1−n(n2−1)6ΣDi2 Di = 등위간 차이
n = 사례 수
양류상관계수(point-biserial correlation coefficient)
독립변수가 명명척도에 의한 두종류로 구분된 질적변수
종속변수가 연속적인 양적변수
일반적으로 rpb로 표기함 rpb=sYYˉH−YˉLpq YˉH = 종속변수의 평균이 높은 집단의 평균 YˉL = 종속변수의 평균이 낮은 집단의 평균 sY = 종속변수의 표준편차 p = 한 집단에 소속된 사례 수의 비율 q = 다른 집단에 소속된 사례수의 비율(1-p)
결국 Pearson 상관계수의 변형 공식임
그래서 Pearson 상관계수로 대신 계산함
양분상관계수(biserial correlation coefficient)
독립변수,종속변수 모두 연속적인 양적변수이지만, 독립변수를 양분한 경우
일반적으로 rb로 표기함 rb=sYYˉH−YˉLhpq YˉH = 종속변수의 평균이 높은 집단의 평균 YˉL = 종속변수의 평균이 낮은 집단의 평균 sY = 종속변수의 표준편차 p = 한 집단에 소속된 사례 수의 비율 q = 다른 집단에 소속된 사례수의 비율(1-p) h = 표준정규분포에서 p와 q가 분할되는 지점의 높이
Pearson 상관계수와 동일한 결과를 가지지 않음
Φ계수(phi coeffient)
- 독립변수,종속변수 모두 명명척도에 의해 양분된 질적변수일때
Pearson 상관계수로 계산한 값과 값이 동일하게 나옴
a
b
c
d
Φ^=(a+b)(c+d)(a+c)(b+d)ad−bc
단순회귀분석(simple regression analysis)
상관계수를 활용하여 점들을 대표하는 선을 그리는 과정
산포도를 그려서 기본가정인 선형성, 등분산성, 이상점X, 자료절단X 라면 점들을 대표하는 선을 그릴수 있음
직선은 Y=aX+b 로 표현됨
모든 점을 대표하는 직선을 회귀선(regression line)이라 부른다.
이를 식으로 표현한것을 회귀등식(regression equation)이라한다.
기울기는 회귀계수(regression coefficient)라 부른다. Y^=B0+B1X
회귀 등식 계산 절차
두 변수의 산포도를 그려 상관계수 기본가정을 충족하는지 확인한다.
XˉYˉsXsYrxy 를 계산한다.
회귀선의 기울기인 회귀계수를 계산한다. B1=rxysXsY
(x,y)값 하나를 대입해 회귀선의 절편(B0)을 계산한다. B0=Yˉ−B1Xˉ
회귀등식을 만든다. Y^=B0+B1X
결정계수(coefficient of determination)
상관비(correlation ratio)라고도 불림
종속변수의 분산중 독립변수로 설명되는 비율을 의미
회귀 모델로 대상을 얼마나 잘 설명할 수 있는지를 숫자로 나타낸 것(설명력)
종속변수의 분산(총변화량) Sum of Squared Total, SST SST=i=0∑n(yi−yˉ)2
설명되지 않은 변화량(잔차제곱합) Sum of Squared Residual, SSR SSR=i=0∑n(yi−y^i)2 y^i=모델로 추정한 값