표준 오차(Standard Error)
한정된 데이터를 통해 얻어진 평균이 참값으로부터 어떤 확률과 정도로 벗어나 있는지를 나타내는 것 "표본 평균의 퍼짐 정도"
4-2 가설 검정
가설 : 모수에 대한 잠정적인 가정
검정 과정
1) 가설 수립
2) 유의수준 설정
3) 검정통계량 산출
4) 검정 결과 판정
1)가설 수립
- 귀무 가설 : 모집단에 대해 옳다고 가정한 잠정적인 명제(이미 알고있는 가설)
- 대립 가설 : 귀무가설이 틀렸다고 제안하는 가설, 입증하려는 주장
2) 유의수준 설정
- 유의수준 α : 가설 검정 대상에 맞게 의사결정을 해야하는 기준치
출처 : https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=uscpalicense&logNo=220507326197
(1종 오류가 2종 오류에 비해 더 위험한 상황)- 검정력 : 대립가설이 사실일 때 이를 사실로 검정할 확률
유의수준 α에 따라 표준정규분포상에서 사실 여부를 검정
3) 검정통계량 산출
- 검정통계량 : 귀무가설이 참이라는 가정 하에 표본으로부터 계산된 통계량
귀무가설에서 주장하는 모평균이 비교대상이 된다.
4) 검정 결과 판정
-유의확률 p-value : 귀무가설이 참일 때 검정톰계량보다 극한값을 얻은 확률, 특이함의 정도
p-value<α 가 되면 귀무가설이 기각된다.
가설 검정은 1)가설을 설정한 후 2)표본으로부터 검정통계량을 계산하고 3)주어진 유의수준에 따라 임계치를 계산하고 4)검정 통계량과 임계치를 비교해 귀무가설을 유지하거나 기각한다.
5-1 t 검정
t 검정 : 평균 비교를 통한 두 집단 사이의 차이 검정
1) One sample t-test(단일표본 t 검정)
2) Paired (sample) t-test(대응표본 t 검정)
3) Two sample t-test(독립 이표본 t 검정)
1) One sample t-test
- 단일 표본의 평균 검정 방법으로 모집단의 평균이 알고있는 값과 일치하는지 검정하기 위함
2) Paired t-test
- 연관된 두집단의 차이값에 대한 단일 표본의 평균검정을 하기 위함
- 짝을 이루는 두 표본 (동일한 대상, 유사한 그룹) 간의 전/후 차이 비교
3) Two sample t-test
- 두 그룹의 평균을 비교한다.
_기본 가정 3가지- 독립성 : 각 관측값이 서로 영향을 주지 않는다.
- 정규성 : 정규분포를 충족한다 ( 대부분 표본이 충분히 크면 충족)
- 등분산성 : 두 그룹의 분산이 같다.
5-2 카이제곱 독립성 검정
수치로 측정되지 않는 범주로 분류하는 자료의 검정에 사용
분할표
출처 : https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=uscpalicense&logNo=220507326197
여러 속성에 따라 분류된 표본 관측값으로부터 얻어지는 도수로 구성된 데이터
가설
귀무가설은 두 변수 X와 Y가 서로 독립이다 / 대립가설은 두 변수 X와 Y가 서로 독립이 아니다.
라고 수립한다.
도수의 독립성을 확인하기 위한 조건을 검정통계량으로 해 p-value를 구해 귀무가설을 검정한다.
두 변수의 독립성만을 확인할 수 있고 두 변수간의 중요한 범주, 계량적 정도는 확인할 수 없다.
6-1. 상관 분석
연속형 두 변수간 선형관계 정도를 검정하는 통계 분석 방법
산점도
출처 : https://ko.wikipedia.org/wiki
두 개의 숫자형 데이터를 직교 좌표계에 표시해 두 변수 간 관계를 나타내는 방법
산점도를 통해 확인할 사항
-두 변수간에 선형관계가 존재하는가
-두 변수 간의 함수관계가 존재하는가
-가지고 있는 자료에서 이상점이 존재하는가
-몇 개의 그룹으로 나누어 구분할 수 있는가
상관계수
산점도를 통해 두 변수 사이의 상관관계 정도를 나타내는 수치
방향과 강도를 나타내며 -1~1 사이에서 절대값이 1에 가까울 수록 강한 상관관계를 의미한다.
피어슨 상관계수
두 변수 간 선형관계 방향,강도를 측정한다.
두 변수의 정규성을 가정하고 있다는 한계가 있다.
스피어만 상관계수
서열척도인 두 변수들의 상관관계를 변수값들의 순위를 이용해 파악한다.
켄달 상관계수
두 변수를 크기 순으로 두고 순위가 일치하는 정도로 상관계수를 정의한다.
상관관계의 한계
변수 간의 기울기, 두 변수 간의 인과관계 등을 파악할 수 없고 절대값이 1에 가깝더라도 반드시 상관관계가 높지 않을 수도 있고 0에 가까운 경우에도 상관관계가 있을 수 있다.
그래서 상관계수는 보조적 재료로만 사용된다.