통계 2

BlackLabel·2023년 11월 9일

통계

목록 보기

2/4

모집단과 표본

모집단과 표본

모집단(Population), 표본(Sample)

-> 가설검증, 회귀분석 등에 이해하는데 중요하다

표본추출(Sampling) : 모집단으로부터 표본을 추출하는 것을 Sampling이라고 하며, 표본으로부터 그 특성을 찾아내고 모집단의 특성을 추론(=추정)하고자 함

모집단에서 표본을 추출하는 방법

복원추출(Sampling with replacement) : 모집단에서 데이터를 추출할 때 하나를 추출하고 다시 넣고 추출하는 방법으로 동일한 표본이 추출될 수 있음
비복원추출(Sampling without replacement) : 모집단에서 데이터를 추출할 때 하나를 추출하고 다시 넣지 않고 추출하는 방법
Random Sampling : 모집단에서 데이터를 추출할 때 주의할 점은 편향되지 않아야 함, 각 개체가 모두 동일한 확률로 추출하는 방법

불균형 데이터(Imbalanced Data)의 문제

데이터가 불균형 데이터일 경우 문제가 생김
우리가 예측모형을 만드는 목적은 관심이 있는 대상이 발생할 확률을 예측하는 경우가 대부분임, 그런데 예측 대상이 전체 대비 아주 낮다면? 모형의 성능이 괜찮을까? (ex: 신용 평가 모형 개발, 제조 불량 예측 등)

1) Sampling 기법을 통하여 해결
2) 모델을 통한 성능 개선(ex: Cost-seneitive learning)

Sampling 기법: 관심의 대상의 아주 비율이 낮은 경우
Over Sampling: 타겟 데이터 적은 class의 수를 많은 class의 비율만큼 증가 시킴(일정 비율로 복원추출하는 개념), 과도적합의 문제 발생할 수 있음
Under Sampling: 타겟 데이터의 많은 class의 수를 적은 class의 비율만큼 감소시킴, 임의로 뽑은 데이터가 viased(편향)될 수 있고, 모형의 성능이 떨어질 수 있음

표본 분포

통계량(Statistic) : 표본에 기초하여 계산되는 수치 함수를 통계량이라고 함

표본분포(Sampling distribution) : 통계량들이 이루는 분포를 표본 분포라고 함

표본 평균

표본 평균(Sample mean)

표본 평군의 기댓값

표본 평균의 분산

예시

-> iid : 모든 펴본이 서로 독립이고 동일한 분포에서 뽑는다

중심극한 정리(central limit theorem)

평균이 μ 이고 σ²인 임의의 모집단에서 랜덤 표본 X₁, X₂ ,... Xn을 추출할 때 표본의 크기 n이 충분히 (n≥30) 크면, 표본 평균 X바 는 근사적으로 정규분포 N(μ, σ²/n)을 따른다

예시

카이제곱분포

카이제곱 분포는 감마 분포에서 α = ν / 2, λ = 2와 같음
카이제곱 분포는 범주형 자료 분석에서 활용함

예시

자유도(degree of freedom)

표본수 - 제약조건의 수 또는 표본수 - 추정해야 하는 모수의 수를 의미하며, 일반적으로 n-1을 사용함
예시적으로 설명하면 표본의 크기가 5이고, 표본 평균이 3으로 정해졌다면, 숫자 4개는 자유롭게 정할 수 있으나 마지막 하나의 숫자는 나머지 네 개의 숫자에 의해 결정. 1,2,3,4를 골랐다면 마지막 숫자는 자동으로 5가 되야 평균이 5로 정해져 있음
카이제곱 분포는 자유도 v의 크기에 따라 모양이 달라짐 자유도가 커질수록 분포가 좌우 대칭 형태로 됨
카이제곱 분포는 자유도가 커지면서 표준정규 분포에 근사하며, v≥ 30이면, 확률을 근사적으로 정규분포로 구할 수 있음

T분포

만약 모표준편차 σ를 모른다면, σ를 대신해서 표본표준편차 s를 이용해서 확률변수 Z를 정의함

예시

F분포

서로 독립인 두 정규모집단의 분산 또는 표준편차들의 비율에 대한 통계적 추론, 분산분석 등에 활용됨

예시

추정

추정(estimation): 모집단의 모수를 모를 경우 표본으로 추출된 통계량을 모집단의 근사값으로 사용하는 것을 추정이라고 한다
추정량(estimator): 표본 평균으로 모평균을 추정할 때 표본 평균에 대한 추정량이라고 함
모수를 추정하는 방법에는 점 추정(point estimation)과 구간 추정(interval estimation)이 있음
점추정: 모수를 하나의 특정값으로 추청하는 방법
구간 추정: 모수가 포함될 수 있는 구간을 추정하는 방법

점추정

대표적인 성질

구간 추정

신뢰구간(confidence level) : 추정값이 존재한느 구간에 모수가 포함될 확률
신뢰 수준은 100 * (1 - α)%f로 계산하며, α는 오차 수준임
신뢰 수준 95%라는 것은 구간 추정된 값의 오차가 발생할 확률이 5%라는 것을 의미함
이 오차를 유의 수준(significant level)이라고 하며, p=0.05라고 함
신뢰구간은 신뢰 하한, 신뢰 상한으로 표시하며 아래와 같은 수식으로 표현( 추정하는 모수가 θ)

모평균 μ를 추정한다면, 표본평균이 x바이고 표준오차가 sd라고 하면 신뢰구간은 아래와 같다

예시

모평균의 구간 추정

모집단의 분산을 아는 경우

모집단의 분산을 모르는 경우

표본의 크기 결정
허용 오차(permissible error) : 추정한 값이 틀려도 허용할 수 있는 오차
정규분포의 신뢰구간을 통해 허용 오차를 계산

모비율의 추정

모비율의 구간 추정

예시) 20대 전체의 A사 핸드폰 사용률을 알기 위해서 무작위로 500명을 대상을 조사한 결과 212명이 A사 핸드폰을 사용 중이었다. 20대 전체의 A사 핸드폰 사용률에 대한 추정값을 구하고 95% C.I를 구하시오

모비율의 표본 크기(대표본일 경우)

예시) 20대 전체의 A사 핸드폰 사용률을 알기 위해서 A사용률을 추정에 대한 95% 신뢰구간으로 오차의 한계를 0.01로 하기 위한 표본의 크기는?

모평균 차이의 추정(점추정)

모평균 차이의 추정(구간추정: 대표본)

모평균 차이의 추정(구간추정:소표본, 모분산을 모르는 경우)

예시

모비율 차이의 추정(점추정)

모비율 차이의 추정(구간추정)

모비율 차이의 추정

예시) ) 20대 남녀 코로나 백신 접종률에 차이가 있는지 보기위해서 100명씩 각각 추출해서 남자의 경우 95명이, 여자의 경우 90명이 접종한것으로 조사되었다. 남녀의 백신 접종률 차이에 대해서 점추정치와 95% 신뢰구간을 구하라

+database

이전 포스트

통계 1

다음 포스트

통계 3

0개의 댓글