Inferences on a Population Mean (1)

박예서·2024년 10월 25일

ProbabilityAndStatistics

Probability and Statistics for Engineers and Scientists (Review)

목록 보기

1/7

8.1 Confidence Intervals

신뢰구간(Confidence Interval) : 가장 그럴듯한 값들을 포함하는 구간

Confidence Level : 신뢰구간을 결정하는 요소로, 전형적으로 90%, 95%, 99%의 confidence level을 가진다

주로 위와 같이 표현하며 a는 confidence level에 따라 순서대로, 전형적인 0.1, 0.05, 0.01값을 가진다.

t-Intervals

t-procedure에 기반한 모평균의 추정 방법은 중심극한 정리에 따라 표본 크기가 30보다 크거나, 표본 크기가 작다면 정규분포를 따라야 한다. '

그러나 t-intervals는 그렇지 않더라도 그래프의 끝이 두꺼우며, 기술적으로는 nonparametric 등 다른 분석 방법들도 존재하여 모평균의 추정을 할 수 있다.

Two-Sided t-Interval

two-sided t-interval의 신뢰구간은 표본 평균에 standard error와 critical point를 곱한 값을 빼고, 더한 범위를 구간으로 갖는다.

그림으로 보면 다음과 같다.

Length of t-Intervals

우리는 t-interval의 신뢰구간을 알고 upper, lower bound 모두 같은 크기를 가지므로 신뢰구간의 길이는 다음과 같이 나타낼 수 있다.

여기서 중요한 특징은

신뢰구간의 길이는 standard error와 critical point에 비례한다.

critical point는 알파가 작아질수록 커지고, n이 커질수록 작아진다.

confidence level이 증가할수록 알파가 작아지므로 critical point는 커지며 때문에 신뢰구간의 길이도 증가한다.

다음은 예시 사진으로 confidence level에 따른 신뢰구간을 나타낸 것이다.

신뢰구간은 표본의 개수에도 반비례한다.

이를 이용해 신뢰구간의 길이를 특정 값으로 제한할 수 있는 최소한의 표본 개수를 알 수 있다.

신뢰구간의 길이 공식을 L0를 대입하여 바꾸면 위와 같은 식이 나오고, n1은 초기 표본 개수이다.

n이 증가할수록 critical point는 작아지므로, 가장 작은 초기 표본 개수를 대입하여 가장 믿을 수 있는 근사치인 n의 최솟값을 구할 수 있다.

t-Distribution

그래프로 보면 위와 같고 식으로 나타내면 아래와 같다.

t-statistic

t-intervals는 sampling distribution에 의해 다음과 같은 t-statistic을 구할 수 있다.

이를 통해 다음과 같은 식을 얻을 수 있다.

One-Sided t-Intervals

이는 둘다 가지는 two-sided와 달리 upper bound와 lower bound를 하나씩만 가진다.

upper bound

lower bound

아래는 신뢰구간을 시각적으로 나타낸 수직선이고, 파란 구간이 확률 상으로 1 - a에 해당하는 구간이다.

z-Intervals

z-interval은 이미 모집단의 standard deviation을 알고 있을 때 standard normal critical point를 사용한다.

나머지는 t-interval과 똑같다.

z-Interval vs. t-Interval

t-distribution이 가능한 이유로 양 끝이 좀 더 두껍게 올라와 있는 것을 확인할 수 있다.

표본 개수가 늘어날수록 결국 normal distribution에 가깝게 근사된다.

때문에 작은 표본 개수에서는 t-interval, 큰 표본 개수에서는 z-interval을 사용한다고 보면 된다.

박예서

Context-aware AI researcher at the intersection of CV, HCI, and AR/VR

다음 포스트