📗 빅데이터를 통찰하는 힘 : 실무활용 편
검정력
✨즉, 데이터 분석에서 상당한 비중을 차지하는 것이 바로 '비교'하는 일✨
오류 : 통계에서 일어나는 실수
데이터의 불규칙성이 클수록 평균의 차이도 커진다. ...
동일한 인원 수에서 동일한 평균값이 얻어졌다고 해도 원시 데이터의 불규칙성이 크면 클수록
동일한 건수의 데이터로부터 얻어지는 평균값이라도 대단히 큰 차이를 보이고 있다. _91쪽_
표준편차, 표준오차 개념
표준 편차 : 원시 데이터 그 자체의 불규칙성을 나타내는 지표, 표본 조사로 얻은 각 관측값과 표준평균의 차이
표준 오차(SE) : 평균의 표준편차
, 표준편차를 표본크기의 제곱근으로 나눈 값, 분포에서의 표준편차, 표본평균 추정값의 변동성, 불확실성의 측정값
참고) 비율 데이터에서 분산은 데이터 분산 = 비율 x (1-비율)
표준오차의 의미
1) 수집한 데이터의 수 (표본)
2) 표본의 평균
3) 원시 데이터의 불규칙성 의 관계를 알게되면
수집한 일부 데이터를 통해 알고 싶은 값(모수)를 더 잘 유추할 수 있게 된다.
표준오차는 신뢰구간을 구할 때 사용한다.
(여기서 SE가 표준오차!)
✨표본의 크기가 커지면 커질 수로 표준 오차는 작아진다!✨
표본 크기 설계
다음 조사에서 어느 정도 표준 오차로 하기 위해 어느 정도의 데이터 수(즉 표본 크기)가 필요한 가를 예측할 수 있다. 이와 같이 표본 크기를 예측하는 것을 표본크기 설계라고 부른다. 97쪽
최종적으로 얻어지는 오차와 조사에 소요된 시간이나 예산을 저울질해가며 피룡한 데이터 수를 예측하는 것이 표본크기의 설계이다. 표본크기 설계의 개념을 이해할 수 있으면 어찌되었든 전수조사라든가 우선은 빅데이터 같은 것이 어떤 상황에 적절하게 쓰일지 알 수 있다. 99쪽