통계 | #3 검정력의 핵심은 유의한 차이를 찾을 수 있는가 이다.

소리·2024년 5월 2일
0

분석하는 힘

목록 보기
3/11

📗 빅데이터를 통찰하는 힘 : 실무활용 편

  • 2장 통계학이 '최강인 또 하나의 이유 (1)

검정력

  • 유의차 : 우연한 불규칙성 때문에 생겼다고는 생각하기 어려운 차이 = 유의하다
  • 검정력 : 어떤 차이가 존재하고 있다는 가설이 올바를 때 정확히 유의차라고 말할 수 있는 확률

🔖중요한 포인트는 최소한의 데이터 안에서 유의한 차이를 어떻게 찾아낼 수 있는가, 검정력을 최대화할 수 있는가 이다. 82쪽

✨즉, 데이터 분석에서 상당한 비중을 차지하는 것이 바로 '비교'하는 일✨


오류 : 통계에서 일어나는 실수

  • 제 1종 오류 : 아무 차이가 없는데도 차이가 있는 것으로 인식하는 실수
  • 제 2종 오류 : 본래 차이가 존재하는데 그것을 못 보고 놓치는 실수

  • 오차 : 한정된 데이터를 통해 얻어진 평균 또는 비율이 '참값'으로부터 어떤 확률과 정도로 벗어나 있는지 나타내는 것
데이터의 불규칙성이 클수록 평균의 차이도 커진다. ... 
동일한 인원 수에서 동일한 평균값이 얻어졌다고 해도 원시 데이터의 불규칙성이 크면 클수록 
동일한 건수의 데이터로부터 얻어지는 평균값이라도 대단히 큰 차이를 보이고 있다. _91쪽_

표준편차, 표준오차 개념

  • 표준 편차 : 원시 데이터 그 자체의 불규칙성을 나타내는 지표, 표본 조사로 얻은 각 관측값과 표준평균의 차이

  • 표준 오차(SE) : 평균의 표준편차, 표준편차를 표본크기의 제곱근으로 나눈 값, 분포에서의 표준편차, 표본평균 추정값의 변동성, 불확실성의 측정값

참고) 비율 데이터에서 분산은 데이터 분산 = 비율 x (1-비율)

  • 표준오차의 의미

    1) 수집한 데이터의 수 (표본)
    2) 표본의 평균
    3) 원시 데이터의 불규칙성 의 관계를 알게되면
    수집한 일부 데이터를 통해 알고 싶은 값(모수)를 더 잘 유추할 수 있게 된다.

  • 표준오차는 신뢰구간을 구할 때 사용한다.
    (여기서 SE가 표준오차!)


  • 표본 크기 : 집단 전체에서 추출된 표본인 데이터의 수 94쪽

✨표본의 크기가 커지면 커질 수로 표준 오차는 작아진다!✨


표본 크기 설계

다음 조사에서 어느 정도 표준 오차로 하기 위해 어느 정도의 데이터 수(즉 표본 크기)가 필요한 가를 예측할 수 있다. 이와 같이 표본 크기를 예측하는 것을 표본크기 설계라고 부른다. 97쪽

최종적으로 얻어지는 오차와 조사에 소요된 시간이나 예산을 저울질해가며 피룡한 데이터 수를 예측하는 것이 표본크기의 설계이다. 표본크기 설계의 개념을 이해할 수 있으면 어찌되었든 전수조사라든가 우선은 빅데이터 같은 것이 어떤 상황에 적절하게 쓰일지 알 수 있다. 99쪽

profile
데이터로 경로를 탐색합니다.

0개의 댓글