Ch1 기초통계_Basic 08-11 (기초 4-5)

김민지·2023년 5월 3일
0

Part 08. 통계

목록 보기
2/3
  1. 모집단과 표본
  • 모집단(Population) : 모평균, 모분산

  • 표본(Sample) : 표본평균, 표본분산

  • 표본추출(Sampling) : 모집단으로부터 표본을 추출하는 것을 의미. 표본으로부터 그 특성을 찾아내고 모집단의 특성을 추론하고자 함.

  • 모집단에서 표본을 추출하는 여러 방법
    - 복원추출(Sampling with replacement) : 모집단에서 데이터를 추출할 때, 하나를 추출하고 다시 넣고 추출하는 방법으로 동일한 표본이 추출될 수 있음
    - 비복원추출(Sampling without replacement) : 모집단에서 데이터를 추출할 때, 하나를 추출하고 다시 넣지 않고 추출하는 방법
    - Ramdom Sampling : 모집단에서 데이터를 추출할 때 주의할 점은 편향되지 않아야 함. 각 개체를 모두 동일한 확률로 추출하는 방법

  • 불균형 데이터(Imbalanced Data)의 문제: 데이터가 불균형 데이터일 경우 문제가 생김
    -> 우리가 예측모형을 만드는 목적은 관심이 있는 대상이 발생할 확률을 예측하는 경우가 대부분임. 그런데 예측 대상이 전체 대비 아주 낮을 경우에 문제가 생김.
    -> 해결방법: Sampling 기법 사용 or 모델을 통한 성능 개선

  • Sampling 기법 : 관심의 대상이 아주 비율이 낮은 경우 사용함
  • Over Sampling: 타겟데이터가 적은 class의 수를 많은 class의 비율만큼 증가시킴(일정 비율로 복원추출하는 개념) -> 과도적합의 문제 발생가능
  • Under Sampling: 타겟데이터가 많은 class의 수를 적은 class의 비율만큼 감소시킴 -> 임의로 뽑은 데이터가 biased(편향)될 수 있고, 모형의 성능이 떨어질 수 있음
  1. 표본분포
  • 통계량(Statistic) : 표본에 기초하여 계산되는 수치 함수

  • 표본분포(Sampling distribution) : 통계량들이 이루는 분포

  • 표본평균(Sample mean)

  • 중심극한 정리(central limit theorem) : 임의의 모집단에서 랜덤표본을 추출할 때 표본의 크기가 충분히(n>=30) 크면, 표본평균은 근사적으로 정규분포를 따른다

  • 카이제곱 분포(Chi-square distribution)

  • 자유도(degree of freedom) : 표본수-제약조건의 수 또는 표본수-추정해야 하는 모수의 수를 의미하며 일반적으로 n-1을 사용함
    -> 카이제곱 분포는 자유도 v의 크기에 따라 모양이 달라짐. 자유도가 커질수록 분포가 좌우 대칭 형태로 됨.
    -> 카이제곱 분포는 자유도가 커지면서 표준정규 분포에 근사하며, v>=30이면, 확률을 근사적으로 정규분포로 구할 수 있음

  • T분포

  • F분포 -> 서로 독립인 두 정규모집단의 분산 또는 표준편차들의 비율에 대한 통계적 추론, 분산분석 등에 활용됨

  1. 추정
  • 추정(estimation) : 모집단의 모수를 모를 경우 표본으로 추출된 통계량을 모집단의 근삿값으로 사용하는 것을 추정이라고 함

  • 추정량(estimator) : 표본 평균으로 모평균을 추정할 때 표본평균을 모평균에 대한 추정량이라고 함

  • 모수를 추정하는 방법에는 점추정(point estimation)과 구간추정(interval estimation)이 있음

  • 점추정 : 모수를 하나의 특정값으로 추정하는 방법

  • 구간 추정 : 모수가 포함될 수 있는 구간을 추정하는 방법

  • 점추정의 대표적인 성질 : 일치성, 불편성, 유효성, 평균오차제곱

(1) 일치성(Consistency) : 표본의 크기가 모집단의 크기에 근접해야 함
-> 표본의 크기가 크면 클수록(모집단에 가까울수록) 추정량의 오차가 작아짐

(2) 불편성(unbiased estimator) : 추정량이 모수와 같아야 함
-> 모수가 추정량과 같을 때 이를 불편 추정량이라고 하며, 같지 않다면 편의(biased) 있다고 함

(3) 유효성(efficiency) : 추정량의 분산이 최소값이어야 함
-> 모수에 대한 추정량의 분산이 작을수록 추정량이 효율적임

(4) 평균오차제곱(Mean Squared Error - MSE) : 평균오차제곱이 최소값이어야 함

  • 구간추정 : 모수가 포함될 수 있는 구간을 추정하는 방법
  • 신뢰구간(confidence level) : 추정값이 존재하는 구간에 모수가 포함될 확률
    -> 신뢰수준 95%라는 것은 구간 추정된 값의 오차가 발생할 확률이 5%라는 것을 의미함
    -> 이 오차를 유의 수준(significant level)이라고 하며, p=0.05라고 함
    -> 신뢰구간은 신뢰 하한, 신뢰 상한으로 표시함
  • 표본의 크기 결정 : 정규분포의 신뢰구간을 통해 허용 오차를 계산
  • 허용오차(permissible error) : 추정한 값이 틀려도 허용할 수 있는 오차
  • 모비율의 점추정 : 비율에 대한 추정으로 우리가 원하는 속성(class)에 속하면 '1' 아니면 '0'일 때, 1의 속성을 갖는 것의 개수를 X라고 하면 X ~ B(n,p)임
    -> 이 때, 모비율의 점추정량을 표본비율(sample proportion)이라고 함

  • 모비율의 구간 추정 : 모비율 구간 추정에서 정규분포의 근사가 가능한 대표본은 보통 np>5, n(1-p)>5를 동시에 만족해야 함

  • 모평균 차이의 추정(구간추정: 소표본, 모분산을 모르는 경우)
    : 두 모집단의 분산을 아는 경우에는 대표본과 동일하게 추정 가능하지만, 모르는 경우에는 등분산 가정이 필요 (두 모집단의 분산이 같다는 가정이 필요)

  • 합동 분산 추정량(pooled variance estimator) : 공통 분산의 추정량

<제로베이스 데이터 취업 스쿨>

0개의 댓글