[MMD] Probability & Statistics for Machine Learning & Data Science Week 4

피망이·2024년 5월 18일

Week 4 - Confidence Intervals and Hypothesis testing

Lesson 1 - Confidence Intervals

Confidence Intervals - Overview

  • Statistopia 예제에서 다룬 10,000명의 사람들의 키 분포를 떠올려보자.

    • 사실상 우리는 population mean인 μ\mu는 알 수 없기 때문에, 표본(sample) mean인 xˉ1\bar{x}_1, xˉ2\bar{x}_2, xˉ3\bar{x}_3를 측정해서 모집단을 추정하는 방법을 택한다.

  • 그러나 특정 샘플이 완벽하게 정확할 것이라고 기대할 수는 없으며, 매번 다른 표본 평균을 얻게될 것이기 때문에 모집단의 평균을 구하는 일은 매우 어려운 일이다.

    • 즉, 실제로 얼마나 정확한지에 대해서는 항상 불확실(uncertainty)할 수 있다!

  • Confidence Interval은 뽑힌 sample mean들을 가지고 어느 정도(degree)의 certainty를 만족하면서 population mean(μ\mu)을 추정하고 싶을 때 사용한다.

    • Interval은 lower limit과 upper limit을 뜻하며 Confidence level은 해당 구간에 μ\mu가 포함될 확률을 의미한다.

  • 아래 예시를 통해 Confidence Interval(신뢰 구간)에 대해 알아보자.

    • 만약 당신이 길을 걷다가 열쇠를 떨어뜨렸는데 어디에서 잃어버렸는지를 모른다.

  • 이제 당신은 친구를 만나, 열쇠를 찾기 위해 "열쇠가 있을 법한(guess)" 곳에 차를 정박하고 "적당한 구간(search distance)"을 탐색하기 시작한다.

    • 차를 정차할 곳은 어디든 가능하며 열쇠를 떨어뜨렸을 가능성이 가장 높은 곳에 정차하면 된다.

  • 만약 80% 확률을 신뢰 구간으로 설정했다면, 해당 interval 안에는 80%의 확률로 열쇠가 있을 것이라는 믿음을 바탕으로 한다.

    • 허나 95% 확률로 confidence level이 높아진다면 열쇠를 찾을 확률은 높아지지만 search distance가 넓어지기 때문에 더 많은 탐색을 해야한다.

    • 50% 확률을 설정한다면 탐색할 영역이 좁아져서 공수가 덜 들어가나, 해당 interval 내에서 열쇠를 찾을 확률이 확 떨어지기 때문에 trade off라 볼 수 있다.

  • Confidence Interval(신뢰 구간)의 정의는 사실, "50%의 열쇠"를 찾는 것을 뜻하는 것이 아니다.

    • 열쇠가 있는 위치는 "하나"이며 고정이기 때문에, 우리는 열쇠가 있는 위치를 "guess"할 수밖에 없다는 점을 명확히 해야한다.

      • 이러한 guesses 중에서 각 guess의 interval 내에 실제 열쇠의 위치(μ\mu)가 있을 것이라고 certainly하게 말할 수 있는 정도가 confidence level이다.

  • Population random variable XXN(μ,σ2)N(\mu, \sigma^2)을 따른다.

    • 이 때, μ\mu는 Unknown value이고, σ\sigma는 Known value로 설정한다.

      • 일반적으로는 두 가지 모두에 대해 불확실하지만, 지금은 평균만 알 수 없는 가장 간단한 방법으로 문제를 설정하였다.
    • Sample의 수를 n=1n=1로 하여 표본 평균 xˉ\bar{x}을 계산하면, 표본 평균의 random variable Xˉ\bar{X} 또한 N(μ,σ2)N(\mu, \sigma^2)을 따른다.

      • 하지만 사실은 xˉ\bar{x}μ\mu가 완전히 같지 않을 것이 분명하다.
    • 따라서 표본 평균이 오차 한계를 벗어날 확률을 뜻하는 significance level α\alpha를 설정한다.

      • α\alpha는 보통 매우 작은 숫자이므로 표본 평균의 confidence level인 1α1 - \alpha는 1에 가깝게 설정된다.

  • 이제 confidence level을 확률로 생각하여 기존 population 분포의 95%에 해당하는 1α1 - \alpha구간을 색칠해보자.

    • 나머지 5%는 정규 분포의 대칭성에 의해 양쪽에 2.5%씩 나눠가진다.

      • 따라서 Confidence Interval은 sample mean xˉ\bar{x}로부터 ±\pm margin of error(2.5%)한 값으로 구간 limit을 구할 수 있다.

  • 이제 Known σ\sigma에 대해, n=1n=1의 sample 수와 confidence level 95%로 margin of error를 설정하여 sample을 뽑아 보자.

    • 각 sample mean을 중심으로 하는 분포로부터 95%의 confidence level로 margin이 설정된 구간 내에 μ\mu가 포함되었는지를 확인하면 3개 중 2개는 이를 만족한다.

  • 이제 여러 개의 sample을 선정하여 margin 내에 μ\mu가 포함되었는지를 확인하면 95%는 맞고 5%는 아닐 수 있다.

    • 이러한 범위 내에서 sample을 generating하도록 설정해주는 것이 confidence level의 진정한 정의다.

  • 지금은 n=1n=1일 때의 상황이기 때문에 sample이 하나다.

    • 완벽하게 확신할 수는 없지만, 이렇게 생성된 신뢰 구간의 95% 내에는 μ\mu가 포함되어 있음을 믿으며 추정하는 것이다.

Confidence Intervals - Changing the Interval

  • 우리는 Sample과 Population의 관계를 다음과 같이 나타낸 적이 있다.

    μXˉ=μ\mu_{\bar{X}} = \mu

    σXˉ=σn\sigma_{\bar{X}} = \displaystyle \frac{\sigma}{\sqrt{n}}

    • 현재는 sample의 개수를 n=1n=1로 표현했기 때문에 σXˉ\sigma_{\bar{X}}σ\sigma기 같다.

  • Sample size가 2로 커진다면 아래와 같이 σXˉ\sigma_{\bar{X}}σ2\displaystyle \frac{\sigma}{\sqrt{2}}로 원래 크기보다 감소한다.

    • 분산은 narrow 정도를 나태내는 것이기 때문에 분포가 다소 뾰족하게 변하는 것을 알 수 있다.

  • n=1n=1일 때와 n=2n=2일 때의 95% 신뢰 구간을 비교해보자.

    • 같은 95%의 확률이더라도 sample size가 크다면 margin of error 범위가 더 줄어드는 것을 알 수 있다.

  • n=2n=2일 때와 n=10n=10일 때를 비교해보아도 마찬가지다.

  • 이제 sample size에 맞게 sample mean들을 구해, 95%의 신뢰 구간 내에 기존 분포 μ\mu를 포함하는지에 대한 여부를 조사해보자.

    • Sample size가 클수록 error 범위가 줄어든다고 했으므로, nn이 크다면 sample mean xˉi\bar{x}_iμ\mu와 더 가깝게 추정 가능하다는 사실을 알 수 있다.

  • 같은 95%를 만족하는 확률로 confidence level을 설정하였다고 하더라도 nn의 크기에 따라 보여지는 sample mean의 분포 양상은 다소 다를 수 있다.

    • 즉, sample size를 크게 설정할수록 sample mean의 값 자체가 μ\mu와 거의 동일하게 계산된다는 점이 key point다.

  • 아래는 sample size에 따른 margin of error의 범위 차이를 나타낸다.

  • 같은 confidence level이더라도 nn이 클수록 sample mean이 μ\mu로부터 멀리 떨어지지 않은, 더 narrow한 구간 내에 존재한다.

    • 다시 말해, nn이 커지면 confidence interval은 줄어든다.

  • 이번에는 sample size nn을 고정시켜, confidence level을 70%으로 변화시켜 보자.

    • 그러면 margin of error는 더 줄어들 것이다.

  • Sample size를 n=1n=1로 고정하고, 95%와 70%의 확률로 confidence level을 다르게 설정한 결과를 비교한 것이다.

    • Confidence level이 감소하면 Margin of error가 줄어들기 때문에 sample mean의 구간이 μ\mu를 포함하게 될 가능성이 줄어든다.

  • 아래는 confidence level에 따른 margin of error의 범위 차이를 나타낸다.

  • 요약하자면 다음과 같다.

    1. 신뢰 구간은 sample mean의 양쪽 side에 margin of error를 붙여 넓힌 구간이다.
    2. 신뢰 수준은 신뢰 구간이 μ\mu를 포함하게 될 확률을 의미한다.
    3. 신뢰 수준을 높인다면 신뢰 구간은 좁아진다.
    4. 표본의 개수가 크다면(데이터가 많다면) 신뢰 구간의 범위는 좁아진다.
    5. 신뢰 수준을 낮춘다면 신뢰 구간의 범위는 줄어든다.

Confidence Intervals - Margin of Error

  • Sample mean의 confidence interval로부터 margin of error를 정의해보자.

    • Confidence Interval의 lower limit과 upper limit이 나타내는 범위까지가 margin of error다.

  • Population의 분포가 파란색과 같다면 뽑힌 sample들은 아래 주황색으로, sample mean xˉ\bar{x}는 검은색으로 표기하였다.

    • 만약 키가 더 작은 사람들로 sample을 형성하였다면 xˉ\bar{x}는 왼쪽으로 치우칠 것이며, 키가 더 큰 사람들로 sample을 형성했다면 xˉ\bar{x}는 오른쪽으로 치우친다.

  • Sample size nn이 매우 크다면 분포의 형태가 population mean μ\mu에 매우 가깝게 형성된다.

  • 그런데 우리가 알 수 있는 건 sample mean과 sigma 뿐이다.

    • 그렇다면 어떻게 Confidence Interval을 설정할 수 있을까?

  • Normal distribution의 특징부터 살펴보자.

    • 평균인 μ\mu로부터 ±\pm 1σ1 \sigma, 2σ2 \sigma 한 구간의 넓이를 계산하면 68%, 95%의 면적을 얻을 수 있다.

      • 1 또는 2를 나타내는 값은 zz-scores로 표현 가능하기 때문에 random variable XXZZ로 바꿔서 표현해보자.

  • Xμσ=Z\displaystyle \frac{X-\mu}{\sigma} = Z로 모든 random variable을 계산하면 변수가 모두 숫자로만 표현 가능해진다.

    • 이 때 평균은 0이며, 2라고 표현된 값은 사실 평균 μ\mu로부터 2배의 standard deviation(σ\sigma)가 더해진 값이라고 볼 수 있다.

  • 명확하게는 1.96일 때 아래 면적이 95%임을 만족한다.

    • 그리고 해당 값은 software library의 "critical values"로 표현된 값을 찾아 알아낼 수 있다.

  • α\alpha를 0.05(5%)로 설정했을 때에는 경계선에서의 lower limit을 0.05의 1/2인 z0.025z_{0.025}로 표현할 수 있다.

    • Upper limit은 z0.975z_{0.975}로 표현된 값을 찾아주면 된다.

  • α\alpha가 0.10이라면 양 끝 부분의 면적이 10%라는 뜻이므로 zα/2z_{\alpha/2}z1α/2z_{1- \alpha / 2}가 경계를 나타낸다.

  • 정규화를 진행하지 않은 random variable XX로, 95%의 confidence level을 다시 표현해보자.

    • Lower limit과 upper limit의 값은 μ±1.96σ\mu \pm 1.96 * \sigma로 표현할 수 있다.

  • 만약 sample size까지 고려한 분포로 설명한다면 XˉN(μ,σ2n)\bar{X} \sim N(\mu, \displaystyle \frac{\sigma^2}{n})을 따르기 때문에
    표준 편차 σXˉ\sigma_{\bar{X}}σn\displaystyle \frac{\sigma}{\sqrt{n}}로 표현된다.

    • 그러면 margin of error의 값이 1.96σ/n1.96 * \sigma/\sqrt{n}이 된다.

      • 1.96이 기존 random variable XXzz값이었으므로 zzσ/n\sigma/\sqrt{n}을 곱한 값이 sample 분포의 margin of error다.

  • Confidence Interval은 아래와 같은 수식으로 정리 가능하다.

    • Sample mean xˉ\bar{x}의 confidence level 95%인 구간 → z:1.96z: 1.96

      • μ1.96σn<xˉ<μ+1.96σn\mu - 1.96*\displaystyle \frac{\sigma}{\sqrt{n}} < \bar{x} < \mu + 1.96*\frac{\sigma}{\sqrt{n}}
    • 이를 통해 population mean μ\mu의 구간을 추정하면 다음과 같다.

      • xˉ1.96σn<μ<xˉ+1.96σn-\bar{x} - 1.96*\displaystyle \frac{\sigma}{\sqrt{n}} < -\mu < -\bar{x} + 1.96*\frac{\sigma}{\sqrt{n}}

      • xˉ1.96σn<μ<xˉ+1.96σn\bar{x} - 1.96*\displaystyle \frac{\sigma}{\sqrt{n}} < \mu < \bar{x} + 1.96*\frac{\sigma}{\sqrt{n}}

    • 결론적으로 Confidence Interval은 xˉ±z1α/2σn\bar{x} \pm z_{1-\alpha/2} * \displaystyle \frac{\sigma}{\sqrt{n}}로 표현 가능하다.

  • CLT에 따라 충분히 많은 sample size를 유지하는 한, 위와 같은 정리는 유효하다.

Confidence Intervals - Calculation Steps

  • Confidence Interval을 구하는 방법에 대해 step by step으로 알아보자.

    1. Sample mean xˉ\bar{x}를 찾는다.

    2. Confidence level인 (1-α\alpha)를 설정한다.

    3. Critical value z1α/2z_{1-\alpha/2}를 계산한다.

    4. Standard error σn\displaystyle \frac{\sigma}{\sqrt{n}}을 계산한다.

    5. Margin of error(구간의 절반) z1α/2σnz_{1-\alpha/2} * \displaystyle \frac{\sigma}{\sqrt{n}}를 계산한다.

    6. Sample mean xˉ\bar{x}에서 margin of error를 ±\pm하여 population mean이 있을 범위를 구한다. → confidence interval

  • 신뢰 구간을 계산할 때 가정해야 할 몇 가지 조건이 있다.

    • Sample은 random 추출된다.
    • Sample size가 30 초과일 때, normal distribution임을 가정할 수 있다.

Confidence Intervals - Example

  • 6,000명의 성인이 존재하는 Statistopia 사람들 중에서 49명을 random select하여 xˉ\bar{x}σ\sigma를 구해보자.

    • 95%의 신뢰 구간을 설정한다면 z1α/2z_{1-\alpha/2}는 1.96이며, 이를 가지고 condidence interval을 계산해보자.

  • 먼저 margin of error z1α/2σnz_{1-\alpha/2} * \displaystyle \frac{\sigma}{\sqrt{n}}를 계산하면 7의 결과값이 나온다.

  • Confidence interval은 sample mean xˉ\bar{x}±\pm margin of error 한 값이므로, 170에서 7을 더하거나 빼줌으로써 계산할 수 있다.

    • 신뢰 구간은 sample mean으로부터 margin of error를 계산한 구간 내에, population mean이 있다고 95%의 신뢰도로 확신한다는 내용을 의미한다.

    We are 95% confident that the true average height in Statistopic is between 163cm and 177cm.

Calculating Sample Size

  • 우리는 방금 49명의 sample size로 95%의 confidence level을 만족시킨 결과, margin of error가 7cm임을 얻었다.

  • 만약 이 오차 범위를 더 줄이고 싶어서 3cm의 margin of error를 원한다면 최소 몇 명의 사람들을 sampling하면 될까?

    • 이제 관점을 바꿔 sample size의 최소 개수를 계산해보도록 하자.

  • Margin of error의 식은 z1α/2σnz_{1-\alpha/2} * \displaystyle \frac{\sigma}{\sqrt{n}}이다.

    • xˉ\bar{x}가 170cm이고 σ\sigma가 25cm일 때, margin of error가 3보다 작거나 같음을 만족하기 위하여 nn의 값을 계산하면 아래와 같이 수식을 얻을 수 있다.

      • n(1.96×253)2267n \ge (\displaystyle \frac{1.96 \times 25}{3})^2 \approx 267

  • 원하는 margin of error를 얻기 위한 최소 sample size를 계산하는 대한 공식은 다음과 같다.

    • n(zα/2σMOE)2n \ge \displaystyle (\frac{z_{\alpha/2 * \sigma}}{MOE})^2

Difference Between Confidence and Probability

  • 사실 confidence와 probability는 엄밀한 차이가 있다.

    • Confidence interval은 해당 구간 내에 population parameter가 있을 "확률"이라기 보단 95%의 time 정도로 "성공"한다는 개념이다.

  • Population mean은 fixed 되어 있고 unknown하다는 점이 큰 특징이다.

    • 또한, 특정 probability distribution을 가지지 않는다.

  • 우리가 알 수 있는 사실은 오로지 계산된 interval 내에 population mean이 있을지 없을지에 대한 정보 뿐이다.

  • 그리고 95%의 "확률"로 population mean μ\mu가 해당 간격에 속하지 않을 수도 있다.

  • 그러나 sample의 분포는 표본 평균 xˉ\bar{x}와 approximated된 평균 μ\mu가 존재하기 때문에, 몇 번의 times로 confidence interval이 평균 μ\mu를 포함하는지를 count할 수 있다.

    • 즉, Confidence level은 sampling된 표본의 confidence interval 내에 μ\mu가 포함될 "성공" rate라고 보아야 한다.

  • 다시 말해, 특정 interval 내에 population mean이 포함될 "확률"이 아니란 뜻이다.

    • Generating된 sample 중에서 population mean을 포함하게 될 success rate로 보아야 한다.

Unknown Standard Deviation

  • 지금까지 우리는 population deviation σ\sigma를 알고 있다는 가정 하에 문제를 풀었었다.

    • 그러나 대부분의 상황에서는 population에 대한 분포를 전혀 모르므로, sample deviation으로 수식을 약간 고치는 작업이 필요하다.

      • 이를 student's t distribution이라 하며 수식적으로는 xˉμsn\displaystyle \frac{\bar{x} - \mu}{\displaystyle \frac{s}{\sqrt{n}}}으로 정리한다.
    • 그리고 이러한 분포는 실제 분포에 비해 꼬리가 훨씬 더 두껍다는 특징이 있다.

  • 그러나 sample deviation ss를 사용한다 하더라도 여전히 문제점은 존재한다.

    • 바로 z1α/2z_{1-\alpha/2}가 population 정규 분포에 의존하기 때문에 sample에 대한 정규화 값으로 고쳐주어야 한다.

  • 우리는 이제부터 zz score를 student tt score로 고쳐서 계산할 것이다.

  • tt distibution은 degree of freedom이 n1n-1이라는 점을 유의해야 한다.

    • nn이 클수록 population 분포와 거의 유사해진다는 점 또한 유념하자.

Confidence Intervals for Proportion

  • 특정 사건이 일어난 proportion(비율)을 알고 있을 때의 Confidence Interval은 어떻게 계산할까?

    • z1α/2σnz_{1-\alpha/2} * \displaystyle \frac{\sigma}{\sqrt{n}}로 구할 수 있는 margin of error와 p^=xn\hat{p} = \displaystyle \frac{x}{n}을 알고 있을 때의 상황에서 95%의 신뢰 구간을 구해보자.

  • 이 때의 Confidence Interval은 p^±\hat{p} \pm margin of error로 계산한다.

    • Standard error σ\sigmap^(1p^)n\sqrt{\displaystyle \frac{\hat{p} (1-\hat{p})}{n}}로 대체된다.

  • 만약 p^\hat{p}이 0.8일 때를 가정하여 계산해보면 margin of error는 0.14의 값을 갖게 된다.

  • 이를 이용하여 population proportion pp를 추정하면 다음과 같다.

    • Confidence Interval: 0.8±0.140.66<p<0.940.8 \pm 0.14 \Rightarrow 0.66 < p < 0.94

Lesson 2 - Hypothesis Testing

Defining Hypotheses

  • 가설을 세우는 방법에 대해 알아보자.

    • Email이 Spam인지 Ham인지 판단하는 방법은 Null hypothesis(귀무 가설) H0H_0와 Alternative hypothesis(대립 가설) H1H_1을 설정하는 것이 우선이다.

      • 이러한 문제는 좋은 이메일을 Spam 이메일로 착각하는 경우가 훨씬 더 나쁜 경우이므로, 모든 이메일을 Ham 메일로 가정하는 것부터 출발한다.
    • Ham 메일과 Spam 메일은 동시에 일어날 수 없기 때문에 T/F 문제로 치환되며, 아무런 일도 일어나지 않고 안전한 상태를 귀무 가설로 가정한다.

      • 그리고 다양한 evidence를 보았을 때, 귀무 가설이 기각된다면 대립 가설이 참으로 받아들여진다.

      즉, 오답을 알아차리는 것이 가장 중요한 task다!

  • 이 때 귀무 가설은 기준선(Baseline), 대립 가설은 경쟁 진술(opposite to prove)을 나타낸다.

    • 가설 검정의 목적은 Data와 증거를 보고 Spam인지 Ham인지에 대한 두 가설 중 하나를 결정하는 것이라 볼 수 있다.

    • 수집된 증거가 해당 메일이 Spam임(대립 가설)을 충분히 입증하지 못할 경우, 귀무 가설을 기각하는 것이다.

  • 어떠한 표본이 귀무 가설 H0H_0를 반대하는 증거를 충분히 입증했다면, 귀무 가설을 기각하고 대립 가설 H1H_1을 받아들이게 된다.

    • 예를 들면 "Dear Friend", "Risk Free"와 같은 trigger phrase가 나타날 때, Spam이 아닐 것이라는 귀무 가설을 기각할 만한 충분한 증거가 있다고 볼 수 있다.

      • 다시 말해 Spam일 확률이 높다는 뜻이고, 그 즉시 귀무 가설을 기각하여 대립 가설인 spam 처리 항목으로 보내는 과정을 말하는 것이다.

Type I and Type II errors

  • Type I error와 Type II error에 대해 알아보자.

    • Type I error는 Ham 메일을 Spam 메일로 잘못 보낸 경우로, Positive를 False라 예측한 error를 말한다.

    • Type II error는 Spam 메일을 Ham 메일로 잘못 보낸 경우로, Negative를 False라 예측한 error를 말한다.

      • 어느 경우가 더 wrong decision이라 받아들여 지는가?

  • Type I과 Type II error를 표로 나타내면 다음과 같다.

    • Not spam이라 가정한 positive 귀무 가설 H0H_0을 기각했다면 Type I error, Spam이라 가정한 negative 귀무 가설 H1H_1을 기각했다면 Type II error라고 한다.

      • 그 외의 경우는 올바르게 예측했으므로 Correct 값이다.

  • Regular email을 spam으로 보내버릴 경우, 그 반대의 경우보다 더 worse하다.

    • 어느 정도의 한계까지는 Type I error를 납득해줄 수 있을까?

      → 이에 대한 내용이 Significance level이다.

  • Significance level α\alpha가 0이라고 한다면 Email을 모두 ham으로 가정하였을 때, 한 개도 기각된 게 없다는 뜻이므로 관대하게 받아들일 수 있다. (No Type I error)

    • 반면 Significance level α\alpha가 1이라면 Email을 모두 ham으로 가정하였는데, 모두 기각되었다는 뜻이므로 매우 화가 나는 상황일 것이다. (Every time Type I error)

  • 일반적으로 우리는 α=0.05\alpha = 0.05 정도의 수준까지는 용남할 수 있다고 판단한다.

    • 즉, 귀무 가설을 5% 정도까지는 기각할 수 있을 때 좋은 귀무 가설과 대립 가설을 세웠다고 보며 α\alpha가 small일수록 가정과 가까운 정답을 얻는다.

      • 그런데 α\alpha가 0에 가까우면 Type I error는 줄어드는 대신, Type II error이 커지기 때문에(Not ham, but spam) 이를 balance 있게 잘 잡아주는 것이 필요하다.

  • Significance level은 Type I error를 범할 최대 확률이며, 이는 귀무 가설 H0H_0를 가정했을 때 이 가설이 기각될 최대 확률과 같다.

    • 따라서 주어진 data을 기반으로, H0H_0를 거부할지 말지에 대한 여부를 결정하는 임계값이라 볼 수 있다.

    A type I error occurs when we incorrectly reject the null hypothesis when it is actually true, while a type II error occurs when we fail to reject the null hypothesis when it is actually false.

Right-Tailed, Left-Tailed, and Two-Tailed Tests

  • 아래와 같은 Heights Example을 보자.

    • 18세 이하 10명의 Heights를 평균 내었더니, xˉ=68.442\bar{x} = 68.442 inches의 결과를 얻어내었다고 하자.

  • 이 때 Data quality를 최대한 높게 유지하면서 Sample을 뽑으려면 다음 세 가지 조건을 만족시키며 추출하면 된다.

    • Representative(표현력 있고), Randomized(랜덤 추출이며) Sample size가 충분히 커야 한다.

  • 이제 70년대 US 사람들의 키 평균(66.7)에 관한 정보를 바탕으로 가정을 세워보자.

    • 현재 아이들의 키가 70년대 아이들의 키 평균보다 커졌다는 주장을 하기 위해서는 다음과 같은 가정을 세워 검증해보아야 한다.

      • Population의 mean이 변하지 않았을 것(66.7)이라는 귀무 가설 H0H_0μ>66.7\mu > 66.7일 것이라는 대립 가설 H1H_1를 세운다.

  • 그런 다음 10명의 sample size를 가진 표본을 뽑아 이에 대한 평균 Xˉ\bar{X}로 test해보자.

    • 기존에 뽑았던 sample의 xˉ\bar{x}는 Observed statistic이며, 현재 뽑은 sample은 우리의 가정을 검증하기 위해 뽑아진 set이다.

  • Test를 위해 sample을 nn개만큼 더 뽑아 보자.

    • 이러한 test set은 다음과 같은 세 가지 다양한(Not unique) 방법으로 population parameter를 추정할 수 있게 만들어준다.

      μXˉ\mu → \bar{X}
      pXˉp → \bar{X}
      σ2S2=1n1i=1n(XiXˉ)2\sigma^2 → S^2 = \displaystyle \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2

    • 따라서 검증하고 싶은 데이터의 특징에 따라 방법을 달리하여 test하면 된다.

  • 일반적으로 다음의 3가지 questions를 통해 가설을 검증한다.

    1. Right-Tailed Test → H0:μ=66.7H_0: \mu = 66.7 vs H1:μ>66.7H_1 :\mu > 66.7

    2. Left Tailed Test → H0:μ=66.7H_0: \mu = 66.7 vs H1:μ<66.7H_1 :\mu < 66.7

    3. Two-Tailed Test → H0:μ=66.7H_0: \mu = 66.7 vs H1:μ66.7H_1 :\mu \neq 66.7

      • 세 가정 모두 70년대와 비교하였을 때 키의 평균이 변하지 않았다는 우호적인 가정을 귀무 가설로 세운다.

  • Right-Tailed test는 다음과 같은 과정으로 이루어진다.

    일단 sample이 population에 매우 근사하다는 가정 하에 Xˉ\bar{X}를 얻어 test를 진행한다.

    • Null hypothesis(귀무 가설) 66.7을 기준으로 이보다 큰 키를 가진 sample mean이 나타날 경우 H0H_0를 Reject한다.

      • Type I error는 population이 변하지 않았다는 가정 하에 sample mean이 μ>66.7\mu > 66.7을 얻을 때의 상황을 가리킨다.

      • Type II error는 sample mean이 μ>66.7\mu > 66.7을 가리킴에도 불구하고 귀무 가설 μ=66.7\mu = 66.7을 유지하는 것을 가리킨다.

  • Left-Tailed test는 위와 반대되는 과정으로 이루어진다.

    • Null hypothesis(귀무 가설) 66.7을 기준으로 이보다 작은 키를 가진 sample mean이 나타날 경우 H0H_0를 Reject한다.

      • Type I error는 population이 변하지 않았다는 가정 하에 sample mean이 μ<66.7\mu < 66.7을 얻을 때의 상황을 가리킨다.

      • Type II error는 sample mean이 μ<66.7\mu < 66.7을 가리킴에도 불구하고 귀무 가설 μ=66.7\mu = 66.7을 유지하는 것을 가리킨다.

  • Two-Tailed test는 위의 두 가지 상황을 종합한 과정으로 이루어진다.

    • Null hypothesis(귀무 가설) 66.7을 기준으로 이보다 크거나 작은 키를 가진 sample mean이 나타날 경우 H0H_0를 Reject한다.

      • Type I error는 population이 변하지 않았다는 가정 하에 sample mean이 μ66.7\mu \neq 66.7일 경우를 가리킨다.

      • Type II error는 sample mean이 μ66.7\mu \neq 66.7을 가리킴에도 불구하고 귀무 가설 μ=66.7\mu = 66.7을 유지하는 것을 가리킨다.

p-Value

  • 우리는 70년대 18세 이하의 키 평균인 66.7 inches라는 "정보"로부터 모집단의 평균이 여전히 변하지 않았다는 가정(H0H_0)을 세웠다.

    • 모집단의 sample size가 n=10n=10이고 표준 편차가 σ=3\sigma=3(unknown, but known)이라면, H0H_0가 True일 때 해당 분포는 XˉN(66.7,3210)\bar{X} \sim N(66.7, \displaystyle \frac{3^2}{10})를 형성한다.

    • 이 때 "H0H_0가 참일 때 표본이 참일 것이냐?"에 대한 질문에 대답이 거의 불가능(unlikely)하다면 H0H_0를 reject하는 근거가 된다.

      • 그렇다면 H0H_0를 reject하기 위한 증거의 기준을 어느 정도로 세워야 할까?

  • 모집단의 분포를 Gaussian으로 가정하여 observation을 처리해보자.

    • Significance level(유의 수준) α\alpha를 0.05로 설정하였다는 말은 어떠한 사건에 대한 확률이 0.05 미만이라면 Type I error로 보겠다는 말이다.

    • 이를 목표로 하여 xˉ=68.442\bar{x} = 68.442를 관측하였다면, 68.442보다 단순히 큰 값을 관측하였을 때의 모든 확률은 P(Xˉ>66.442)μ=66.7)P(\bar{X} > 66.442) | \mu=66.7)로 계산한다.

      • 이는 모집단의 분포로부터 구해진 것이며 이 값을 pp-value라고 부른다.
    • 현재 관측값의 pp-value가 0.0332로 계산되었으므로, 0.05보다 작은 값을 가지기 때문에 Type I error로 보아 H0H_0을 기각하는 것이 합리적이라 판단한다.

  • pp-value란 H0H_0가 True임을 가정하였을 때 test statistic이 가질 수 있는 값이 매우 극단적으로 H0H_0 벗어났을 때를 의미하는 확률값(probability)이다.

    • 다시 말해, 관측값으로부터 H1H_1으로 향하는 direction으로 모두 더한 확률값이다.

    • Decision rule은 다음과 같다.

      1. If pp-value < α\alpha → reject H0H_0, accept H1H_1
      2. If pp-value > α\alpha → don't reject H0H_0

  • Right-tailed, Two-tailed, Left-tailed test는 다음과 그림과 같이 검정한다.

    • T(X)T(X)가 가정한 모집단의 분포이며 tt가 관측값의 통계치, μ\mu는 귀무 가설(H0H_0)로 세운 μ0\mu_0와 동일한 평균이다.

      • tμ0|t-\mu_0| 방향이 H1H_1으로의 방향 즉, H0H_0를 reject하게 되는 방향이다. (Two-tailed)

  • Two-tailed test에서의 pp-value 계산은 observed value인 68.442와 μ\mu인 66.7의 차이만큼의 값을 양쪽에서 고려해야 한다.

    • Significance level을 0.05로 똑같이 세워 검정하면 0.0663의 pp-value를 얻을 수 있고, 이는 α\alpha보다 큰 값을 가지므로 H0H_0를 reject하지 않는다.

  • 마지막으로 Left-tailed test는 Right-tailed test와 비슷하게 검정한다.

    • 마찬가지로 pp-value가 0.05보다 작기 때문에 H0H_0를 reject한다.

  • 이제 ZZ-statistic으로 검정하는 방법에 대해 소개한다.

    • Xˉ\bar{X}를 이용해 모집단을 gaussian으로 가정하고, H0H_0가 True임을 가정한다면 XˉN(μ0,3210)\bar{X} \sim N(\mu_0, \displaystyle \frac{3^2}{10})을 따른다.

      • Z=Xˉμ03/10Z= \displaystyle \frac{\bar{X} - \mu_0}{3/\sqrt{10}}로 standardization(정규화)하면 ZN(0,1)Z \sim N(0, 1)을 따른다.

  • Right-tailed test에서 Z=68.44266.73/10=1.837Z = \displaystyle \frac{68.442-66.7}{3/\sqrt{10}}=1.837를 계산해보자.

  • 이는 기존 모집단 분포를 Standardizing한 N(0,1)N(0, 1) 분포에서, 1.8371.837 초과의 확률을 pp-value로 구하는 것과 같다.

    • ZZ값을 활용하는 이유는 N(0,1)N(0, 1) 분포의 확률 테이블을 이용할 수 있기 때문에 더 쉽게 확률값을 계산할 수 있기 때문이다.

Critical Values

  • Critical Value란 Sample이 α\alphapp-value를 "딱" 가질 때의 variable을 말한다.

    • 방금까지는 observation인 xˉ=68.442\bar{x} = 68.442 이상의 확률이 0.05를 넘네, 안 넘네의 검증으로 접근했다면, 이번에는 pp-value일 때의 observation을 계산해보는 것이다.

      • 이를 kαk_{\alpha}의 notation으로 표현하겠다.

  • α\alpha가 0.05라면 1-0.05의 quantile 값을 critical value k0.05k_{0.05}로 명칭한다.

    • 0.05=P(Xˉ>k0.05μ=66.7)0.05 = P(\bar{X} > k_{0.05}|\mu=66.7)로 수식 전개하면 k0.05=68.26k_{0.05} = 68.26임을 얻어낼 수 있다.

      • 따라서 어떠한 observation xˉ\bar{x}가 68.26을 벗어난다면, H0H_0는 즉시 기각된다.

  • α\alpha가 0.01이라면 1-0.01의 quantile 면적은 이전보다 확 줄어든다.

    이는 α\alpha가 0.05일 때보다는 관측값을 더 관대하게 바라보겠다는 의미로 받아들이자.

    • Critical value인 pp-value k0.01k_{0.01}은 68.9로 계산되며, 이보다 큰 키의 평균이 나온다면 H0H_0는 즉시 기각될 수 있다.

  • Right-tailed, Left-tailed, Two-tailed의 test는 아래와 같은 각각의 notation으로 critical values를 찾아낼 수 있다.

    • Two-tailed test는 α\alpha를 절반 나눠서(α/2\alpha / 2) 계산한다.

  • pp-value와 cricical values 접근법은 모두 Hypothesis를 검정하는 동일한 방법론이다.

    • 특히 cricical values 접근법은 데이터를 모두 모은 뒤 검정하기 쉬운 방법론이기 때문에 Type II error를 찾아내기에도 유용하다.

Power of a Test

  • 지금까지는 H0H_0라는 귀무 가설을 기반으로 Type I error만 중점적으로 다뤘었다.

    • Type II error는 H0H_0이 False일 때 귀무 가설 H0H_0가 기각되지 않는 경우를 의미하는 또 다른 유형의 오류이므로 이에 대해 좀 더 자세히 알아보자.

  • 방금까지는 α\alpha가 0.05일 때의 pp-value로 critical value를 산정하여, Decision rule을 계산하면 "관측값 xˉ\bar{x}가 68.26 이상일 때 H0H_0를 기각"하는 것으로 판단했었다.

    • Type II error는 μ=70\mu = 70일 때 H0H_0을 기각하지 않는 상황으로 예를 들 수 있다.

      • μ\mu가 66.7이 아니라 70이라는 자체가 H0H_0의 가정이 틀렸다는 것을 의미하기 때문이다.

      • 따라서 우리는 P(Xˉ<68.26μ=70)P(\bar{X} < 68.26 | \mu=70) 값을 구해 Type II error의 확률을 결정한다.

  • μ=70\mu = 70임을 가정했으므로 Type II error는 XˉN(70,3210)\bar{X} \sim N(70, \displaystyle \frac{3^2}{10}) 분포로부터 계산되어야 한다.

    • 즉, observed value(sample)에 영향을 받지 않고 오로지 Hypothesis의 분포에 따라 확률값이 산정된다는 것이다!

      • P(Xˉ<68.26μ=70)P(\bar{X} < 68.26 | \mu=70)은 0.0333으로 계산되며 이 값을 우리는 β\beta라는 notation으로 설정한다.

  • Power of the Test는 가능한 H1H_1인(H0H_0가 아닌) 모든 μ\mu에 대하여 H0H_0를 reject할 모든 확률을 말한다.

    • 아래 table 값 중에서도 H0H_0가 False임을 가정할 때 H0H_0가 reject되는 경우의 evidence(correct)가 매우 유용하게 쓰인다.

  • Type II error는 P(Do  not  reject  H0μH1)P(Do \; not \; reject \; H_0 | \mu \in H_1)이며 β\beta라는 값으로 산정했었다.

    • Power of the Test는 P(Reject  H0μH1)P(Reject \; H_0 | \mu \in H_1)라서 Type II error와 상호보완적 관계이며 1β1-\beta와 같다.

      • 다시 말해 Power of the Test와 Type II error는 β\beta1β1-\beta의 관계를 가진다.

  • 아래 그림은 μH1\mu \in H_1에 따른 Power of the Test(1β1-\beta) 그래프를 나타낸다.

    • μ\mu가 68일 때와 70일 때를 가정하였을 때, H0H_0이 reject될 확률은 Power of the Test 1β1-\beta값이다.

      • Type II error는 β\beta와 같으므로 y축의 위에서부터 내려오는 간격에 해당한다.
    • 또 한 가지 재밌는 사실은 μ\mu가 극단적일수록 1β1-\beta값이 1에 가까워진다는 것이다.

      • 이는 μ\mu가 표본 평균 분포의 평균을 결정하기 위한 모집단의 평균이므로 의미있는 관측이라 볼 수 있다.

      다시 말해, μ\mu가 초반 모평균으로부터 극단적으로 멀어질수록 Type II error 즉, 기존 가설 H0H_0를 reject하지 않을 확률이 적다는 얘기다. → Reject할 확률 ↑

  • 이번에는 α\alpha 값에 따른 Power of the Test 분포의 차이를 보여준다.

    • 가장 왼쪽 값의 1β1-\beta값이 α\alpha가 증가함에 따라 커지며, 이 지점의 Power of the Test 값은 바로 Type I error다.

      • 이는 관측값을 Hard하게 바라볼수록 α\alpha값은 커진다는 뜻이며, 이에 따라 Type I error일 확률이 커진다는 것을 의미한다.

  • Type II error의 경우 위와 반대로 해석한다.

    • 관측값을 관대하게 바라볼수록 α\alpha값은 작아지며, 초기 Hypothesis 설정에 문제가 생길 확률이 커져 Type II error 확률이 커진다는 것을 의미한다.

Interpreting Results

  • Hypothesis Testing의 절차(step)에 대해 정리해보자.

    1. Hypothesis를 설정한다.

      • Null hypothesis가 baseline이다. → H0:μ=66.7H_0: \mu = 66.7
      • Alternative hypothesis는 우리가 증명하고자 하는 진술이다. → H1:μ>66.7H_1 : \mu > 66.7
    2. Test를 design한다.

      • Test statistic을 설정한다. → Xˉ\bar{X}
      • Significance level을 설정한다. → α=0.05\alpha = 0.05
    3. Sample로부터 observed된 표본 평균을 활용하여 검정한다. → xˉ=68.442\bar{x} = 68.442

    4. 데이터를 기반으로 결정을 내린다.

      • 만약 pp-value가 significance level보다 작다면 H0H_0를 reject한다.
    • 그러나 이는 생각만큼 간단하지 않고, 종종 실수를 할 수 있기 때문에 어려운 일이다.

  • 지금까지 배운 내용을 정리해보자.

    • Type I error(α\alpha): Null hypothesis가 참일 때 H0H_0가 reject된 경우
    • Type II error(β\beta): Null hypothesis가 거짓일 때 H0H_0가 reject되지 않은 경우
    • Significance level(α\alpha): Type I error가 최대인 확률
    • Error: ↓ α\alphaβ\beta (반비례)

  • 몇 가지 misconception에 대해 정리해보자.

    • 우리는 pp-value를 바탕으로 H0H_0의 기각 유무를 결정하기 때문에, pp-value가 곧 H0H_0가 참임을 보증하는 것이라 오해할 수 있다.

      • 그러나 이는 올바른 명제가 아니다.

  • 또한, H0H_0를 기각하지 않는다고 해서 H0H_0가 무조건 참이라는 뜻도 아니다.

    • 이는 아직 enough evidence가 쌓이지 않았기 때문이라 해석하는게 좋다.

t-Distribution

  • 지금까지 우리는 모집단의 XiX_i가 i.i.d하게 뽑혔을 때 N(μ,σ2)N(\mu, \sigma^2)를 따른다면, sample mean이 Xˉ=110i=110XiN(μ,σ210)\bar{X} = \displaystyle \frac{1}{10} \sum_{i=1}^{10} X_i \sim N(\mu, \frac{\sigma^2}{10})를 따른다고 말할 수 있었다.

    • 그러나 이는 어디까지나 σ\sigma를 알 때의 경우이며 σ\sigma가 unknown 상황일 때에는 student 분포인 t-distribution을 이용해야 한다.

  • Student t-distribution은 σ\sigma 대신 n1n-1의 notation을 갖는 SS 값을 이용한다.

    • 모집단의 알려진 표준 편차 σ\sigma를 이용하면 Z=Xˉμσ/10N(0,12)Z=\displaystyle \frac{\bar{X} - \mu}{\sigma / \sqrt{10}} \sim N(0, 1^2) (standardization)를 따랐다.

    • 그러나 student t-distribution을 이용하면 T=XˉμS/10T =\displaystyle \frac{\bar{X} - \mu}{S / \sqrt{10}}가 현재 상황에서는 N(0,12)N(0, 1^2)를 따른다고 보장할 수 없다.

  • Standard gaussiang pdf와 t pdf를 비교한 그래프를 보자.

    • 두 분포 모두 bell-shaped를 띄지만 t 분포가 조금 더 tails가 heavy하다.

  • 이 때 우리는 Degrees of freedom(ν\nu)를 설정하여 분포를 설명한다.

    • XtνX \sim t_{\nu}를 따른다면 ν\nu에 따라 tail의 heavy 정도를 조절하는 것이다.

      • ν\nu가 커질수록 분포는 gaussian에 가까워지며 ν=30\nu = 30으로 커질때쯤 거의 gaussian이라 가정해도 충분할 정도다.

  • Degrees of freedom(ν\nu)은 sample size에만 영향을 받는 값이다.

    • n1n-1로 설명할 수 있으며, nn이 클수록 T-statistic을 gaussian 분포로 가정할 수 있다.

t-Tests

  • 앞서 다뤘던 Heights 예제에서는 Xˉ\bar{X}N(μ,σ2)N(\mu, \sigma^2)를 따른다고 이야기할 수 있었지만 σ\sigma를 알 수 없는 상황에서는 T-statistic을 활용해야 한다.

    • 이제 T=Xˉ66.7S/10t9T= \displaystyle \frac{\bar{X} - 66.7}{S/\sqrt{10}} \sim t_9를 구해 t9t_9 pdf로 Null hypothesis를 검정할 것이다.

  • Right-tailed test (unkonwn σ\sigma)는 아래와 같이 해결한다.

    • 먼저 observed mean xˉ\bar{x}로부터 H0H_0μ\mu를 이용해 t=68.44266.73.113/10=1.770t = \displaystyle \frac{68.442 - 66.7}{3.113/\sqrt{10}} = 1.770를 구한다.

    • pp-value는 P(Xˉ66.7S/10>1.770)μ=66.7=0.0552P(\displaystyle \frac{\bar{X} - 66.7}{S/\sqrt{10}} > 1.770)|\mu=66.7 = 0.0552로 계산되었으며, α\alpha보다 큰 값을 가지기 때문에 H0H_0를 reject하지 않는다.

  • Two-tailed test (unkonwn σ\sigma)는 아래와 같이 pp-value를 계산한다.

    • P(Xˉ66.7S/10>1.770)μ=66.7=0.01105P(\displaystyle |\frac{\bar{X} - 66.7}{S/\sqrt{10}}| > |1.770|)|\mu=66.7 = 0.01105로 계산되었으며, α\alpha보다 큰 값을 가지기 때문에 H0H_0를 reject하지 않는다.

      • Two-tailed test에서는 pp-value가 한 쪽만 고려할 때보다 2배만큼 커진다.

  • Left-tailed test (unkonwn σ\sigma)는 아래와 같이 pp-value를 계산한다.

    • P(Xˉ66.7S/10<2.487)μ=66.7=0.0173P(\displaystyle \frac{\bar{X} - 66.7}{S/\sqrt{10}} < -2.487)|\mu=66.7 = 0.0173으로 계산되었으며, α\alpha보다 작은 값을 가지기 때문에 H0H_0를 reject한다.

Two Sample t-Test

  • 이번에는 독립된 두 Sample에서의 tt-Test를 진행해보자.

    • US의 18세 이하 Height와 Argentina의 18세 이하 Height를 각각 nX=10n_X=10, nY=9n_Y=9개 뽑아 통계 내보자.

      • 두 sample mean μUS\mu_{US}μAr\mu_{Ar}는 아마도 같지 않을 것이다.

  • 이제 Hypothesis를 설정하자.

    • 귀무 가설 H0H_0는 두 sample mean이 같다는 가정(μUS=μAr\mu_{US}=\mu_{Ar})을 바탕으로 하며, Right-tailed, Left-tailed, Two-tailed 총 3가지 경우의 test가 가능하다.

  • 이러한 tt-test는 다음과 같은 상황에서 이루어져야 한다.

    • 두 그룹의 sample을 이루는 사람들은 모두 달라야 하고 normally distribution으로부터 independent하게 뽑혀야 함을 가정한다.

      • 이 때 XXYY가 각각 N(μUS,σUS2)N(\mu_{US}, \sigma_{US}^2), N(μArg,σArg2)N(\mu_{Arg}, \sigma_{Arg}^2)를 따른다면, XˉYˉ\bar{X}-\bar{Y}N(μUSμArg,σUS210+σArg29)N(\mu_{US} - \mu_{Arg}, \displaystyle \frac{\sigma_{US}^2}{10} + \frac{\sigma_{Arg}^2}{9})인 normal distribution을 따른다.

  • 우리는 μUS\mu_{US}μArg\mu_{Arg}를 모르기 때문에 sUSs_{US}sArgs_{Arg}로 표본 평균을 교체해야 한다.

    • Degrees of freedom은 (sX2nX+sY2nY)sX2nXnX1+sY2nYnY1\displaystyle \frac{(\frac{s_X^2}{n_X} + \frac{s_Y^2}{n_Y})}{\frac{\frac{s_X^2}{n_X}}{n_X-1} + \frac{\frac{s_ Y^2}{n_Y}}{n_Y-1}}와 같이 계산한다.

  • 우리가 구했던 값들을 바탕으로 두 sample의 Degrees of feedom을 계산한 결과는 16.8과 같다.

    • 따라서 T=XˉYˉ(μUSμArg)sX210+sY29t16.8T = \displaystyle \frac{\bar{X} - \bar{Y} - (\mu_{US} - \mu_{Arg})}{\sqrt{\frac{s_{X}^2}{10} + \frac{s_{Y}^2}{9}}} \sim t_{16.8}를 따른다.

  • 이를 바탕으로 Right-tailed test를 진행할 때에는 Null hypothesis에 의해 μUSμAr=0\mu_{US}-\mu_{Ar} = 0으로 설정한다.

    • 계산 결과, TT는 1.7450과 같고 pp-value는 0.05 미만이므로 H0H_0를 reject한다. (H1H_1 accept)

  • Two-tailed test는 P(T>1.7450μUSμAr=0)P(|T| > 1.7450 | \mu_{US}-\mu_{Ar} = 0)를 구해야 한다.

    • pp-value의 합산이 2배이므로 0.05보다 큰 값을 가져 H0H_0를 reject하지 않는다.

Paired t-Test

  • Paired t-Test는 한 sample 내에서의 사람들이 "체중 감량을 얼마나 했는지"와 같은 표본의 차이를 test하기 위한 목적을 지닌다.

    • 따라서 비교군인 두 sample의 통계량이 dependent하다.

  • 이제 우리가 궁금한건 pair한 두 sample 원소의 variable 차이의 평균이다.

    • Dˉ=(X1Y1)+(X2Y2)+...+(X10Y10)10=D1+D2+...+D1010\bar{D} = \displaystyle \frac{(X_1 - Y_1) + (X_2 - Y_2) + ... + (X_{10} - Y_{10})}{10} = \frac{D_1 + D_2 + ... + D_{10}}{10}

  • 만약 XiX_iYiY_i가 gaussian이라면 두 variables의 차이 Di=XiYiD_i = X_i - Y_i도 gaussian이다.

    • Dii.i.dN(μD.σD2)D_i \stackrel {i.i.d}\sim N(\mu_D. \sigma_D^2)

  • Z=DˉμDσD/10N(0,12)Z = \displaystyle \frac{\bar{D} - \mu_D}{\sigma_D/\sqrt{10}} \sim N(0, 1^2)를 구하려 했으나 σD\sigma_D를 알지 못해 SDS_D를 구해야 한다.

    • SD=i=110(DiDˉ)2101T=DˉμDSD/10t101S_D = \displaystyle \frac{\sum_{i=1}^{10}(D_i - \bar{D})^2}{10-1} \Rightarrow T = \frac{\bar{D} - \mu_D}{S_D / \sqrt{10}} \sim t_{10-1}를 구해 test statistic을 진행한다.

  • 두 sample의 관측값을 대입하여 did_i를 통해 diˉ\bar{d_i}sDs_D를 계산하자.

    • 이를 바탕으로 tt값을 구하면 2.321를 얻을 수 있다.

  • Right-tailed test는 H0:μD=0H_0: \mu_D = 0 (차이가 없음)을 가정한다.

    • 이를 바탕으로 tt값을 계산하고, pp-value를 찾으면 0.05보다 작아 H0H_0를 reject하게 된다.

ML Application: A/B Testing

  • A/B testing은 다음과 같은 상황에서 test할 수 있는 방법론이다.

    • Design A와 Design B의 선호도를 비교하고자 각 sample에 모인 집단의 통계량을 계산하고, 두 집단의 차이가 어느 정도인지를 비교하기 위해 쓴다.

  • 귀무 가설 H0:μAμB=0H_0: \mu_A - \mu_B = 0을 바탕으로 TT값을 계산해보자.

    • XXYY는 normal distribution을 따르므로 DN(μAμB,SA2nA+SB2nB)D \sim N(\mu_A - \mu_B, \displaystyle \frac{S_A^2}{n_A} + \frac{S_B^2}{n_B})를 따른다.

      • t=(XˉYˉ)0SA2nA+SB2nBt23.38t = \displaystyle \frac{(\bar{X} - \bar{Y}) - 0}{\sqrt{\frac{S_A^2}{n_A} + \frac{S_B^2}{n_B}}} \sim t_{23.38}를 계산하면 -1.414고 이를 바탕으로 pp-value를 계산하면 0.05보다 큰 결과를 얻어 H0H_0를 reject하지 않는 결론에 이른다.

  • A/B testing과 tt-test의 절차는 다음과 같다.

    • 2개의 variations(A/B)를 선정하여 두 sample을 randomly하게 분리시켜 outcome을 측정한다.

      • 이 때 statistical하게 analysis하기 위해 tt-Test를 진행하는 것이다.

  • Conversion Rate(전환률)을 알아보기 위해 두 Design A/B를 선택한 사람들의 비율을 측정한다고 해보자.

    • Design A를 선택한 사람들은 총 80명으로 만족도를 1/0으로 측정한 결과 20명이 만족했다는 결과를 얻었다.

    • Design B를 선택한 사람들은 총 20명으로 8명이 만족했다는 결과를 얻었다.

  • A/B testing의 귀무 가설 H0:pApB=0H_0: p_A - p_B=0는 만족도의 비율 pAp_A, pBp_B이 차이가 없다는 가정을 전제로 한다.

    • XBinomial(nA,pA)X \sim Binomial(n_A, p_A)이고 YBinomial(nB,pB)Y \sim Binomial(n_B, p_B)를 따른다면 두 variable을 뺀 변수 또한 Normal distribution을 따를 것이다.

      • 전환률 조사는 일반적으로 Left-tailed test를 진행하며(B로의 전환이 목적이니까) significance level α\alpha는 0.05로 설정하였다.

  • Law of large numbers(큰 수의 법칙)에 의해 proportion만으로 Bin 확률을 표현하는 것이 가능하다.

    XnApA\displaystyle \frac{X}{n_A} → p_A & YnBpB\displaystyle \frac{Y}{n_B} → p_B

    • Centeral Limit Thorem(CLT, 중심 극한 정리)에 의해 각 proportion은 Normal distribution을 따른다.

      XnAN(pA,pA(1pAnA)\displaystyle \frac{X}{n_A} \sim N(p_A, \frac{p_A(1-p_A}{n_A}) & YnBN(pB,pB(1pBnB)\displaystyle \frac{Y}{n_B} \sim N(p_B, \frac{p_B(1-p_B}{n_B})

  • 이제 두 집단의 proportion 차이를 변수로 하여 새로운 Normal distribution의 notation을 표현해보자.

    • XnAYnBaN(pApB,pA(1pA)nA+pB(1pB)nB)\displaystyle \frac{X}{n_A} - \frac{Y}{n_B} \stackrel {a}\sim N(p_A - p_B, \frac{p_A(1-p_A)}{n_A} + \frac{p_B(1-p_B)}{n_B})

      • t=(XnAYnB)(pApB)pA(1pA)nA+pB(1pB)nBaN(0,12)t = \displaystyle \frac{(\frac{X}{n_A} - \frac{Y}{n_B}) - (p_A - p_B)}{\sqrt{\frac{p_A(1-p_A)}{n_A} + \frac{p_B(1-p_B)}{n_B}}} \stackrel {a}\sim N(0, 1^2)

  • 만약 H0H_0가 참임을 가정한다면 pA=pB=pp_A = p_B = p다.

    • 이를 이용하여 분산을 재정의하면 p(1p)(1nA+1nB)=p(1p)(nA+nB)1nAnB\displaystyle p(1-p) (\frac{1}{n_A} + \frac{1}{n_B}) = p(1-p) (n_A + n_B) \frac{1}{n_A n_B}로 정리할 수 있다.

  • 그러나 사실 우리는 명확한 pp값을 알지 못하기 때문에 두 sample 이용하여 추정한 전체 proportion p^=X+YnA+nB\hat{p} = \displaystyle \frac{X+Y}{n_A + n_B}로 교체해야 한다.

    • 이를 바탕으로 test statistic을 진행한다면 다음과 같은 ZZ값이 정규 분포를 따른다고 가정한 뒤 수행한다.

      Z=(XnAYnB)0(X+Y)(1X+YnA+nB)nAnBaN(0,12)Z =\displaystyle \frac{(\frac{X}{n_A} - \frac{Y}{n_B}) - 0}{\sqrt{(X+Y) (1-\frac{X+Y}{n_A+n_B})}} \sqrt{n_An_B} \stackrel {a}\sim N(0, 1^2)

  • 관측 결과를 대입하여 ZZ를 계산한 결과 -1.336을 얻었다.

  • 이제 pp-value를 계산하여 0.091의 값을 얻었고, α\alpha인 0.05 이상의 값이 계산되었으므로 H0H_0를 reject하지 않는다는 결론을 얻었다.

    • 다시 말해, 전환률의 차이가 (더 추정해 보아야 알겠지만) 거의 없음을 의미한다.


profile
물리학 전공자의 프로그래밍 도전기

0개의 댓글