[통계] 데이터와 표본분포

hyun·2022년 8월 9일
0

통계

목록 보기
1/37

1. 임의표본추출과 표본편향

용어 정리

  • 표본 (sample) : 더 큰 데이터 집합으로부터 얻은 부분집합

  • 모집단 (population) : 어떤 데이터 집합을 구성하는 전체 집합

  • 임의표본추출 (Random sampling) : 무작위로 표본을 추출하는 것

  • 단순임의표본(simple random sample) : 층화 없이 임의표본추출로 얻은 표본
    -> 뽑은 원소를 돌려놓고 다시 추출하는 복원추출과 돌려놓지 않고 추출하는 비복원추출로 구분할 수 있다.

  • 층화표본추출 (stratified sampling) : 모집단을 층으로 나눈 뒤, 각 층에서 무작위로 표본을 추출하는 것

  • 계층(stratum) : 모집단의 공통된 특성을 가진 하위 그룹

  • 표본편향 (sample tias) : 모집단을 잘못 대표하는 표본
    -> 모집단과 표본 사이의 차이가 크고, 뽑은 방식대로 아무리 다시 뽑아도 이 차이가 그대로일 것 같을 때 표본편향이 발생했다고 볼 수 있다.

1.2. 임의 선택

임의표본추출

대표성을 보장하는 방법의 핵심은 임의표본추출이다.
이를 위해서는 접근 가능한 모집단을 잘 정의해야 한다.
모집단을 적절하게 설정하고 분류가 필요하면 분류하여 (층화표본추출) 표본추출을 해야 함 !
분류를 하지 않는 경우에는 모집단에서 무작위 100명을 표본으로 추출하는 경우를 들 수 있다.

층화표본추출

층화표본추출은 임의표본추출의 부분집합으로, 모집단을 층화하여 표본추출하는 것을 말한다.
예를 들어 시간대별로 제품의 판매율을 확인해야 될 때, 오전 오후, 또는 한 시간별로 층을 나눌 수 있다. 이렇게 층을 나누고 적절하게 가중치를 줘서 모든 층에 대해 같은 비율의 표본을 추출할 수 있다.

1.3. 표본평균과 모평균

기호 xˉ\bar{x}는 표본평균을, 기호 μ\mu는 모평균을 뜻한다.

표본평균

표본으로부터 관찰되는 평균

모평균

주로 표본들로부터 추론해서 얻어내는 평균

2. 선택편향

  • 선택편향 (selection bias) : 관측 데이터를 선택하는 방식 때문에 생기는 편향.

  • 데이터 스누핑 (data snooping) : 흥미로운 것이 나올 때까지 데이터를 뒤지는 것

  • 방대한 검색효과 (vast search effect) : 중복 데이터 모델링이나 너무 많은 예측변수를 고려하는 모델에서 비롯되는 편향 혹은 비재현성

  • 이외에도 비임의표본추출, 데이터 체리피킹(골라먹기), 특정 통계적 효과를 강조하는 시간 선택, 흥미로운 결과가 나오고 실험 중단하기 등이 선택편향을 발생시킨다.

2.1. 평균으로의 회귀

  • 어떤 변수를 계속해서 측정할 때, 이상치가 관찰되면 그 다음에는 중간 정도의 값이 관찰되는 경향이 있다고 한다.
    따라서 이상치에 집착하고 의미부여를 하면 선택편향에 빠질 수 있다.
    ❌선형 회귀 등의 통계적 모델링과는 다른 의미이다 !

🚨 가설을 구체적으로 명시하고 임의표본추출 원칙에 따라 데이터를 수집해야 편향을 피할 수 있다.

🚨 모든 형태의 데이터 분석은 편향의 위험성을 늘 가지고 있다.

3. 통계학에서의 표본분포

  • 표본통계량 (sample statistic) : 모집단에서 추출된 표본으로부터 얻은 측정 지표 -> 표본의 평균, 분포, 비율 등

  • 데이터 분포 (data distribution) : 데이터 집합에서 각 개별 값의 도수분포

  • 표본분포 (sampling distribution) : 하나의 동일한 모집단에서 얻은 여러 샘플들의 표본통계량 분포

  • 중심극한정리 (central limit theorem) : 표본크기가 커질수록 표본분포가 정규분포를 따르는 경향

  • 표준오차 (standard error) : 표본통계량의 변량 ... 표본평균은 모평균에 대한 추정이고, 실제 모평균을 참값이라고 한다면 이 값은 오차가 된다. 따라서 표준오차라고 말함.

σ[xˉ](표본평균의표준편차)=standarderror=σn=E[(xˉμ)2]\sigma[\bar{x}](표본평균의\,표준편차)=standard\,\,error=\frac{\sigma}{\sqrt{n}}=\sqrt{E[(\bar{x}-\mu)^2]}
(표본평균의 평균은 모평균이 됨 = 모평균이 참값)

🚨 데이터 분포\neq표본분포. 데이터 분포는 개별 데이터, 표본 분포는 각 표본에서 추출한 측정 지표의 분포이다.

3.1. 중심극한정리

모집단이 정규분포를 이루지 않더라도, 표본의 크기가 충분히 크고 데이터가 정규성을 크게 이탈하지 않을 경우에도 여러 표본에서 추출한 평균은 정규분포를 이루게 된다.
이 덕분에 추론을 위한 신뢰구간이나 가설검정 계산에 스튜던트의 tt분포와 같은 정규근사 공식을 사용할 수 있다.

데이터 과학의 관점에서는 부트스트랩을 사용할 수 있어, 엄청 중요하지는 않다고 하지만 나는 알고 싶으니 후에 포스팅하겠다.

4. 부트스트랩

통계량이나 모수의 표본분포를 추정하는 쉽고 효과적인 방법으로, 현재 있는 표본에서 추가적으로 표본을 복원추출하고, 각 표본에 대한 통계량과 모델을 다시 계산하는 것. 이런 절차를 부트스트랩이라고 하며, 데이터나 표본통계량이 정규분포를 따라야 한다는 전제가 필요 없다.

-> 개념적으로 원래 표본을 수없이 복제하는 것. 이로써 표본에서 얻을 수 있는 모든 것을 가진 모집단이 형성된다. 여기서 표본분포를 구할 수 있다!

실제로 복제를 하지는 않고,,, 복원추출을 통해서 표본을 찍어낸다고 보면 될듯.

🚨 데이터 크기가 작아서, 혹은 새 데이터를 만들기 위해서, 기존 데이터의 빈공간을 채우기 위해 사용하는 기법이 아니다. 모집단에서 추가로 표본을 뽑을 때, 그 표본과 원래 표본의 관계성을 말할 뿐

5. 신뢰구간

이상치를 배제하고 추정치를 보이고자 할 때 쓰이는 개념이다.
그냥 쉽게 xx% 신뢰구간을 얻는다 -> 분포의 양쪽 끝에서 x2\frac{x}{2}만큼을 제외한다.
보통은 90% 혹은 95%처럼 높은 퍼센티지(=신뢰수준)을 이용한다고 !

6. 정규분포

참 유명한 분포 ! 표본통계량 분포가 종 모양의 일정한 모양을 가지는 데서 착안된 분포이다.[ 출처 : 제타위키 ]

가운데는 데이터의 평균이 되고 xx축은 평균 +- 표준편차가 되는 경우도 있는데, 위 사진처럼 그저 표준편차로 나타나는 정규분포를 표준정규분포라고 한다.
y=xxˉσy=\frac{x-\bar{x}}{\sigma}로 데이터와 표준정규분포를 비교할 수 있다. 이를 정규화 혹은 표준화라고 한다. 이 점수가 곧 표준점수 zz 스코어 !

🚨 원시 데이터는 거의 정규분포를 따르지 않는다. 그러나 표본들의 평균이나 합계, 오차는 대부분 정규분포를 따른다.

7. 긴꼬리 분포


대칭이던 비대칭이던 왜도(skewness)가 나타날 수 있다. 왜도는 쉽게 말해 치우침이다. 한쪽 꼬리가 다른 쪽 꼬리보다 얼마나 긴지.
이 경우 꼬리가 긴 쪽에서 이상치가 더 잦게 나타난다 ...

8. 스튜던트의 tt분포

정규분포와 생김새가 비슷하지만, 꼬리가 더 두껍고 길다. tt분포는 표본통계량의 분포를 설명하는 데 광범위하게 사용된다. 표본평균의 분포가 주로 tt분포와 같은 모양이고, 크기에 따라 tt분포의 종류가 다르다.
표본의 크기가 클수록 정규분포와 비슷해진다.
두 표본평균의 차이, 표본평균, 회귀 파라미터 등의 분포를 구할 때 사용한다.

🚨 표본통계량의 상태를 묘사할 때, tt분포의 정확도는 표본분포가 정규분포를 따른다는 것을 전제로 한다. 원래 모집단이 정규분포를 따르지 않아도 표본분포는 정규분포를 따르긴 하지만.. (by 중심극한정리)

-> 그래서 tt분포가 널리 쓰인다고.

9. 이항분포

각 시행마다 성공 확률(pp)이 정해져 있을 때, 주어진 시행 횟수(nn)에서 성공한 횟수(xx)의 도수분포를 뜻한다.

  • P[x]=nCx(px(1p)nx)P[x] =nCx(p^x(1-p)^{n-x})

시행 횟수가 충분히 크고 pp가 0.5에 가까울 때, 이는 사실상 정규분포와 구별이 어렵다고 한다.

10. 카이제곱분포

통계학에서 중요한 개념으로 범주의 수에 대해 기댓값에서 이탈하는 게 있단다. 기댓값은 '데이터에서 특별히 주목할만한 게 없다' 로 정의할 수 있는데, 이를 '귀무가설' 또는 '영가설'이라고도 한다.
카이제곱통계량은 각각 다른 변수의 독립성과 그 변수의 숫자가 의미가 있는지 검정하여 얻어지는 통계량이다.
어렵게 말하면 검정 결과가 독립성에 대한 귀무 기댓값에서 벗어난 정도를 측정하는 것.

활용으로는

  • 적합도 검정 : 관측 결과가 특정 분포를 따르는지
  • 동질성 검정 : 두 집단의 분포가 동일한지
  • 독립성 검정 : 두 변수 사이 관계가 있는지

11. F 분포

2개 이상의 표본평균들이 동일한 모집단에서 추출되었는지 판단하기 위하여 이용. 기본은 카이제곱분포라고 한다. ANOVA(변량분석)의 근간이고, 선형회귀에도 회귀모형의 변동성과 데이터 전체의 변동성을 비교하기 위해 쓰인다고 한다.
얘도 따로 포스팅해야 할듯 ,,

이외에도 푸아송 분포, 지수분포, 베이불 분포 등등 있는데, 어떤 상황에서 쓰이는지만 파악하고 차차 알아가도록 하자.

푸아송 분포 : 시간/공간별 사건 발생 분포

지수 분포 : 사건과 사건 간의 시간 분포

베이불 분포 : 사건 발생률이 시간에 따라 변할 때의 사건 분포


통계를 배운지도 오래됐고, 희대의 날먹 교수님 아래서 배워서 제대로 배운 게 없는데 이제라도 내실을 다져야겠다.

0개의 댓글