2021.10.20 TIL

서승원·2021년 10월 20일
0

TIL

목록 보기
3/68

표준 오차(Standard Error)
한정된 데이터를 통해 얻어진 평균이 참값으로부터 어떤 확률과 정도로 벗어나 있는지를 나타내는 것 "표본 평균의 퍼짐 정도"

4-2 가설 검정
가설 : 모수에 대한 잠정적인 가정
검정 과정
1) 가설 수립
2) 유의수준 설정
3) 검정통계량 산출
4) 검정 결과 판정

1)가설 수립

  • 귀무 가설 : 모집단에 대해 옳다고 가정한 잠정적인 명제(이미 알고있는 가설)
  • 대립 가설 : 귀무가설이 틀렸다고 제안하는 가설, 입증하려는 주장

2) 유의수준 설정

3) 검정통계량 산출

  • 검정통계량 : 귀무가설이 참이라는 가정 하에 표본으로부터 계산된 통계량
    귀무가설에서 주장하는 모평균이 비교대상이 된다.

4) 검정 결과 판정
-유의확률 p-value : 귀무가설이 참일 때 검정톰계량보다 극한값을 얻은 확률, 특이함의 정도
p-value<α 가 되면 귀무가설이 기각된다.

가설 검정은 1)가설을 설정한 후 2)표본으로부터 검정통계량을 계산하고 3)주어진 유의수준에 따라 임계치를 계산하고 4)검정 통계량과 임계치를 비교해 귀무가설을 유지하거나 기각한다.

5.주요 통계 분석 방법

5-1 t 검정
t 검정 : 평균 비교를 통한 두 집단 사이의 차이 검정
1) One sample t-test(단일표본 t 검정)
2) Paired (sample) t-test(대응표본 t 검정)
3) Two sample t-test(독립 이표본 t 검정)

1) One sample t-test

  • 단일 표본의 평균 검정 방법으로 모집단의 평균이 알고있는 값과 일치하는지 검정하기 위함

2) Paired t-test

  • 연관된 두집단의 차이값에 대한 단일 표본의 평균검정을 하기 위함
  • 짝을 이루는 두 표본 (동일한 대상, 유사한 그룹) 간의 전/후 차이 비교

3) Two sample t-test

  • 두 그룹의 평균을 비교한다.
    _기본 가정 3가지
  • 독립성 : 각 관측값이 서로 영향을 주지 않는다.
  • 정규성 : 정규분포를 충족한다 ( 대부분 표본이 충분히 크면 충족)
  • 등분산성 : 두 그룹의 분산이 같다.

5-2 카이제곱 독립성 검정
수치로 측정되지 않는 범주로 분류하는 자료의 검정에 사용

  • 분할표
    출처 : https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=uscpalicense&logNo=220507326197
    여러 속성에 따라 분류된 표본 관측값으로부터 얻어지는 도수로 구성된 데이터

  • 가설
    귀무가설은 두 변수 X와 Y가 서로 독립이다 / 대립가설은 두 변수 X와 Y가 서로 독립이 아니다.
    라고 수립한다.
    도수의 독립성을 확인하기 위한 조건을 검정통계량으로 해 p-value를 구해 귀무가설을 검정한다.
    두 변수의 독립성만을 확인할 수 있고 두 변수간의 중요한 범주, 계량적 정도는 확인할 수 없다.

6. 상관분석과 회귀분석

6-1. 상관 분석
연속형 두 변수간 선형관계 정도를 검정하는 통계 분석 방법

  • 산점도

    출처 : https://ko.wikipedia.org/wiki
    두 개의 숫자형 데이터를 직교 좌표계에 표시해 두 변수 간 관계를 나타내는 방법
    산점도를 통해 확인할 사항
    -두 변수간에 선형관계가 존재하는가
    -두 변수 간의 함수관계가 존재하는가
    -가지고 있는 자료에서 이상점이 존재하는가
    -몇 개의 그룹으로 나누어 구분할 수 있는가

  • 상관계수
    산점도를 통해 두 변수 사이의 상관관계 정도를 나타내는 수치
    방향과 강도를 나타내며 -1~1 사이에서 절대값이 1에 가까울 수록 강한 상관관계를 의미한다.

피어슨 상관계수
두 변수 간 선형관계 방향,강도를 측정한다.
두 변수의 정규성을 가정하고 있다는 한계가 있다.

스피어만 상관계수
서열척도인 두 변수들의 상관관계를 변수값들의 순위를 이용해 파악한다.

켄달 상관계수
두 변수를 크기 순으로 두고 순위가 일치하는 정도로 상관계수를 정의한다.

상관관계의 한계
변수 간의 기울기, 두 변수 간의 인과관계 등을 파악할 수 없고 절대값이 1에 가깝더라도 반드시 상관관계가 높지 않을 수도 있고 0에 가까운 경우에도 상관관계가 있을 수 있다.
그래서 상관계수는 보조적 재료로만 사용된다.

profile
2년차 백엔드 개발자, crimy

0개의 댓글