[ADsP] 자격증 챌린지 7주차

Hyunjun Kim·2024년 10월 22일

ADsP (자격증)

목록 보기
9/18

7. 통계분석 - 통계개요

7.1. 통계 분석의 이해

통계 개요

통계의 정의

통계란, 분석하고자 하는 특정집단을 대상으로 수행한 조사나 실험을 통해 얻은 자료 및 요약된 형태의 표현. 일상적으로 접하는 통계로는 일기예보, 물가, 실업률, 정당지지도, 임상실험 결과 등이 있다. 데이터 자체로는 아무것도 할 수 없기에 통계를 사용합니다. 데이터로 나열되어있는 정보에서 분포의 특징이나 반복되는 것을 이끌어 내기 위한 방법이 통계입니다.

모집단

모집단이란 자료로부터 유용한 정보를 이끌어 낼 때 해당 정보에 대한 대상을 의미. 모집단을 구성하는 개체를 추출단위 혹은 원소라고 합니다. 모집단은 유한 모집단과 무한 모집단으로 나뉘는데, 유한 모집단은 유한 개의 개체로 이루어진 모집단이고, 무한 모집단은 무한 개의 개체로 이루어진 모집단으로 보통 개념적으로 상정된 모집단을 지칭합니다.

통계 자료 획득 방법

전수조사 (Census)
전수조사란, 대상 집단 ‘모두’를 조사하는 것으로 많은 비용과 시간이 소요된다는 단점이 있습니다. 주로 인구주택총조사와 같이 특별한 경우에만 실시합니다

표본조사 (Sample)
표본조사는 대상 집단 모두를 조사하는 것이 아니라, 모집단을 대표할 수 있는 표본을 추출하여 조사하는 것입니다. 그렇게 때문에 표본의 대표성을 신뢰할 수 있어야 표본조사를 통한 모집단의 통계분석 결과를 신뢰할 수 있습니다.

  • 표본 : 조사하는 모집단의 일부분
  • 모수(parameter) : 모집단에 대해 알고자 하는 값 (모집단의 특성치)
  • 통계량(statistic) : 모수를 추론하기 위해 구하는 표본의 값들로 숫자 하나로 특징을 나타내는 것 즉, 데이터를 요약한 수치

표본추출 방법(중요)

단순 랜덤 추출법 (simple random sampling)

N개의 원소로 구성된 모집단에서 n개(n ≤ N)의 표본을 추출할 때 각 원소에 1,2,3… N까지의 번호를 부여한다. 여기서 n개의 번호를 임의로 선택해 그 번호에 해당하는 원소를 표본으로 추출한다.

  • 예시) 사다리 타기, 제비뽑기

계통 추출법 (systematic sampling)

모집단의 모든 원소들에게 1, 2, 3 …. N의 일련번호를 부여하고 이를 순서대로 나열한 후에 K개(K = N/n)씩 n개의 구간으로 나눈다. 첫 구간(1,2, 3, …. K)에서 하나를 임의로 선택한 후에 K개씩 띄어서 표본을 추출한다.

집락(군집) 추출법 (cluster sampling)

모집단이 몇 개의 집락(cluster)이 결합된 형태로 구성돼 있고, 각 집단에서 원소들에게 일련번호를 부여할 수 있는 경우에 이용된다. 집략끼리 동질적인 부분이 있으므로 일부 집락을 랜덤으로 선택하고 선택된 각 집락에서 표본을 임의로 선택한다.

층화 추출법 (stratified sampling)

상당히 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방법이다. 이질적인 모집단의 원소들을 서로 유사한 것끼리 몇 개의 층(stratum)으로 나눈 후, 각 층에서 표본을 랜덤하게 추출한다.

비례 층화 추출법과 불비례 층화 추출법

측정과 척도(중요)

측정과 척도의 개념

측정
추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하도록 관측해 자료를 얻는 것

척도
관측 대상의 속성을 측정하여 그 값이 숫자로 나타나도록 일정한 규칙을 정하여 바꾸는 도구

측정방법

질적척도
범주형 자료, 숫자 크기 차이가 계산되지 않는 척도

명목 - 어느집단
순서 - 서열관계

양적척도
수치형 자료, 숫자 크기 차이를 계산할 수 있는 척도

구간 - 속성의 양, 간격이 의미
비율 - 절대기준 0 존재, 모든사칙연산 가능
데이터의 척도에 따라서 분석 방법을 달리하기 위함

기술통계와 추리통계

통계분석 정의

특정한 집단이나 불확실한 현상을 대상으로 자료를 수집해 대상 집단에 대한 정보를 구하고, 적절한 통계분석 방법을 이용해 의사결정을 하는 과정이다.

기술통계 (Descriptive Statistic)(중)

  • 얻어진 데이터에서 특징을 뽑아내기 위한 기술
  • 수집된 자료를 정리•요약하기 위해 사용되는 기초적인 통계
  • 평균, 표준편차, 중위수, 최빈값, %와 같이 숫자로 표현하는 방식과 막대그래프, 원그래프, 꺾은선그래프 같이 그림으로 표현하는 방식
  • 기술통계를 위한 통계량은 최솟값, 최댓값, 평균, 표준편차, 분산, 중앙값, 사분위수범위, 왜도, 첨도 등이 있다.

추리통계/통계적 추론 (Inference Statistics)(중)

통계학과 확률이론의 혼합으로 전체를 파악할 수 없는 큰 대상이나 미래의 일에 대해 추측하는 것 (부분으로 → 전체를 추측한다)
수집된 자료를 이용해 대상 집단(모집단)에 대해 의사결정을 하는 것

모수추정

  • 표본에서 얻은 통계치를 바탕으로 오차를 고려하여 모수를 확률적으로 추정하는 통계 기법
    가설검증
  • 모집단의 특성을 추정하는 데 초점을 두고 가설을 검증하거나 확률적인 가능성을 파악
    예측
  • 미래의 불확실성을 해결해 효율적인 의사결정을 하기 위해 활용
  • 향후 발생할 수 있는 사건 예측
  • 회귀분석, 시계열분석 등의 방법이 있음



7.2. 기초 통계 용어

기초 통계 용어

자료(데이터)

평균(기댓값)

일반적인 평균은 산술평균을 의미하며 데이터를 요약할 때 가장 대표적으로 사용되는 값

표본평균(Sample Mean)

MX=1n(X1+X2+...+Xn)=i=1nXin\overline{\vphantom{M}X}=\frac{1}{n}(X_1+X_2+...+X_n)=\sum_{i=1}^{\lfloor n \rfloor}\frac{X_i}{n}

중앙값

평균의 함정을 피하기 위한 하나의 척도로 자료를 순서대로 나열했을 때 가운데 위치한 값

  • 중앙값의 순위 : (n+1)2\frac{(n+1)}{2}
  • n이 홀수인 경우 : (n+1)2\frac{(n+1)}{2}
  • n이 짝수인 경우 : n2\frac{n}{2} 번째 값과 n2\frac{n}{2} +1 번째 값의 평균

최빈값

평균의 함정을 피하기 위한 하나의 척도로 주어진 데이터 집합에서 가장 자주 등장하는 값. 즉 가장 빈번하게 나타나는 값

분산

데이터의 흩어진 정도를 나타내는 통계적 측도로 데이터의 각 관찰값이 평균으로부터 얼마나 떨어져 있는지를 측정하여 데이터의 변동성 표현

S2=1n1i=1n(XiMX)2=1n1(i=1n(Xi2nMX2))S^2=\frac{1}{n-1} \sum_{i=1}^{\lfloor n \rfloor} (X_i-\overline{\vphantom{M}X})^2= \frac{1}{n-1}(\sum_{i=1}^{\lfloor n \rfloor} (X_i^2-n\overline{\vphantom{M}X^2}))

표준편차

  • 데이터의 흩어진 정도를 나타내는 통계적 측도 중 하나로, 분산의 양의 제곱근
  • 데이터 포인트들이 평균으로부터 얼마나 떨어져 있는지의 평균적인 정도를 측정

S=S2=1n1i=1n(XiMX)2S=\sqrt{S^2}= \sqrt{\frac{1}{n-1}\sum_{i=1}^{\lfloor n \rfloor}(X_i-\overline{\vphantom{M}X})^2 }

백분위수 (Percentile)

데이터를 순서대로 정렬했을 때 특정 백분율 위치에 있는 데이터 값으로 데이터가 어떤 범위에 있는지를 파악

(n1)p100+1번째값\frac{(n-1)p}{100+1}번째 값

첨도와 왜도 (kurtosis & skewness)

첨도

  • 자료가 평균에 얼마나 많이 밀집해 있는지 나타내는 측도
  • 데이터의 분포 형태를 설명하는 데 사용

왜도

  • 확률분포의 비대칭도를 측정하는 통계적 측도
  • 데이터의 분포가 얼마나 비대칭인지를 나타냄
  • 왜도가 0인 경우 : 데이터가 좌우로 대칭되어 있다는 의미이며, 정규분포와 유사한 형태
  • 왜도가 양수인 경우 : 왼쪽으로 밀집, 오른쪽으로 긴 꼬리를 갖는 분포
  • 왜도가 음수인 경우 : 오른쪽으로 밀집, 왼쪽에 긴 꼬리를 갖는 분포

상관분석

  • 두 변수 간의 관계를 분석하기 위해서 공분산과 상관계수를 활용할 수 있음
  • 두 변수가 함께 움직이는 방향과 그 크기에 대한것
  • 한 변수의 값이 증가할 때 상대변수의 값이 증가하면 양의 상관, 상대변수의 값이 감소하면 음의 상관이 있다고 해석하며 상관계수를 통해 상관성의 정도를 설명할 수 있음

공분산 (Covariance)

  • 두 변수 간의 상관 관계를 나타내는 통계적인 측도
  • 두 변수가 함께 어떻게 변하는지, 즉 한 변수가 증가할 때 다른 변수가 어떻게 변하는지를 측정
  • 양수라면 양의 선형 관계를, 음수라면 음의 선형 관계를 나타냄
  • Cov(X,Y)=E[(Xμx)(Yμy)]Cov(X,Y)=E[(X-μ_x)(Y-μ_y)]

상관계수 (Correlation)

  • 두 변수 간의 선형 관계의 강도와 방향을 나타내는 통계적 측도
  • 두 변수 간의 상관 정도를 -1에서 1까지의 숫자로 표현해서 측정
  • rxy=Cov(X,Y)σxσyr_{xy}=\frac{Cov(X,Y)}{σ_xσ_y}



7.3. 확률과 확률분포

확률

확률의 정의

특정사건이 일어날 가능성의 척도. 통계적 실험을 실시할 때 나타날 수 있는 모든 결과들의 집합을 표본공간(sample space, Ω)이라 하고, 사건(event)이란 표본공간의 부분집합을 말한다.

  • 사건 중에서 오직 한 개의 원소로만 이루어진 사건을 근원사건이라 한다.
    	>원소(Element) : 나타날 수 있는 개별의 결과들
  • 표본공간이 유한 개의 원소로 구성이 되어있고 근원사건들이 일어날 가능성이 모두 같다면, 사건 E의 확률을 다음과 같이 나타낼 수 있다.

P(E)=n(E)n()P(E)=\frac{n(E)}{n(Ω)}

조건부 확률

특정 사건 A가 발생했다는 것이 사실이라는 전제하에 사건 B가 발생할 확률을 나타낸 값으로, 0과 1사이의 값을 갖는다.

  • P(B|A)와 같이 표시하고, 다음과 같이 정의된다

P(BA)=P(AB)P(A)P(B|A)=\frac{P(A∩B)}{P(A)}

독립사건과 배반사건

독립사건(중)
두 사건이 서로 영향을 미치지 않고, 한 사건의 발생 여부가 다른 사건에 아무런 정보를 제공하지 않는 것을 의미한다. 조건부 확률에서 두 사건 A와 B가 독립인 경우에는 A가 발생했을 때를 가정하더라도 B의 확률은 변하지 않기 때문에 아래의 식이 성립한다.

P(BA)=P(B)P(B|A)=P(B)

따라서 두 사건 A와 B가 독립이라면 아래의 식이 성립한다.

P(AB)=P(A)P(B)P(A∩B)=P(A)P(B)

배반사건(중)
두 사건 A와 B가 동시에 발생할 수 없는 경우를 나타낸다. 즉, 한 사건이 일어나면 다른 사건은 일어날 수 없는 관계에 있는 두 사건을 의미한다.

P(AB)=ØP(A∩B)=Ø

확률분포

확률변수

어떤 확률 실험이나 상황에서 발생할 수 있는 각각의 결과를 수치적 값으로 표현하는 변수를 의미한다. 수학적으로 표현하면, 확률변수는 정의역(domain)이 표본공간이고 치역(range)이 실 수값인 함수다. 확률변수에는 이산형 확률변수(discrete random variable)와 연속형 확률변수(continuous random variable)가 있다.
다시 말해, 확률변수는 표본 공간에 있는 모든 원소들을 수치적 값(실수)으로 만드는 함수이다.

예시) 동전
3개의 동전을 던진다고 가정하면 표본 공간은 어떻게 될까

  • 표본 공간 = { 앞앞앞, 앞앞뒤, 앞뒤앞, 뒤앞앞, 앞뒤뒤, 뒤앞뒤, 뒤뒤앞, 뒤뒤뒤)

앞면이 나오는 개수를 Y라고 하면, Y가 가질 수 있는 수치적 값은?

  • 0개 : 뒤뒤뒤
  • 1개 : 앞뒤뒤, 뒤앞뒤, 뒤뒤앞
  • 2개 : 앞앞뒤, 앞뒤앞, 뒤앞앞
  • 3개 : 앞앞앞
    즉 표본 공간의 값들이 수치적 값으로 표현됨
    ⇒ Y가 바로 확률변수

확률분포

확률변수가 특정 값들을 가질 확률을 나타내는 함수 또는 규칙을 의미한다. 즉 확률변수의 모든 값과 그에 대응하는 확률이 어떻게 분포하고 있는지가 확률분포이다.
즉, 확률이 만들어지는 ‘확률 함수’가 그리는 패턴이 확률분포이다.

이산확률분포

이산형 확률변수란, 사건의 확률이 그 사건들이 속한 점들의 확률의 합으로 표현할 수 있는 확률변수를 말한다. 따라서 0이 아닌 확률값을 갖는 확률 변수를 셀 수 있는 경우를 말한다. (확률질량함수)
확률변수가 표현하는 값이 이산형인 것

P(Xi)>0P(X_i)>0i=1,2,...,ki=1,2,...,k

이산형 확률변수의 예시
동전 2개를 던져 앞/뒷면이 나오는 경우의 수 (H:앞, T:뒤)

베르누이 분포 (Bernoulli Distribution)

두 가지 가능한 결과 중 하나가 어떤 확률로 일어날지를 나타내는 간단한 확률 분포

  • 확률 변수가 0 또는 1 두개의 결과만 갖는 분포
    (베르누이 확률 함수로부터 생성된 패턴)
  • 예시) 동전 던지기에서 앞면이 나올 확률, 시험에서 합격할 확률 등
    P(X=x)=px(1p)1x(,x=0,1)E(X)=pVar(X)=p(1p)P(X=x)=p^x(1-p)^{1-x}(단, x=0,1) \\E(X)=p \\Var(X)=p(1-p)
이항분포 (Binomial Distribution)

n번의 베르누이 시행(성공 또는 실패)에서 k번 성공할 확률의 분포

  • 예시) 동전 3번 던져서 앞면이 2번 나올 확률, 3번의 제비뽑기에서 1번 당첨될 확률 등
    P(X=k)=(nk)pk(1p)nk(,x=0,1,2,...,n)E(X)=npVar(X)=np(1p)P(X=k)={n\choose k}p^k(1-p)^{n-k}(단, x=0,1,2,...,n)\\E(X)=np\\Var(X)=np(1-p)
기하 분포 (Geometric Distribution)

성공 확률이 p인 베르누이 시행에서 첫 번째 성공이 있기까지 k번 실패할 확률

  • 예시) 동전을 던져서 3번째에 앞면이 나올 확률
    P(X=k)=p(1p)k(,k=0,1,2,...,n)E(X)=1pVar(X)=1pp2P(X=k)=p(1-p)^k(단, k=0,1,2,...,n)\\ E(X)=\frac{1}{p}\\ Var(X)=\frac{1-p}{p^2}
다항 분포 (Multinomial Distribution)

이항 분포를 확장한 개념으로 n번의 시행에서 각 시행이 3개 이상의 결과를 가질 수 있는 확률 분포
P(X=x,Y=y,Z=z)=n!x!y!z!p1xp2yp3z(,x+y+z=n)P(X=x,Y=y,Z=z)=\frac{n!}{x!y!z!}p^x_1p^y_2p^z_3(단,x+y+z=n)

포아송 분포 (Poisson Distribution)

시간과 공간 내에서 발생하는 사건의 발생 횟수에 대한 확률분포

  • 예시) 교재에 오타가 5페이지 당 10개씩 나온다고 할 경우 한 페이지에 오타가 3개 나올 확률
    P(X=x)=eλλxx!E(X)=λVar(X)=λ* λ : 정해진 시간 안에 어떤 사건이 일어날 횟수에 대한 기댓값P(X=x)=\frac{e^{-λ}·λ^x}{x!}\\ E(X)=λ\\ Var(X)=λ\\ \text{* λ : 정해진 시간 안에 어떤 사건이 일어날 횟수에 대한 기댓값}

연속확률분포

연속확률분포란, 가능한 값이 실수의 어느 특정구간 전체에 해당하는 확률변수를 의미한다. (확률밀도함수)
확률변수가 표현하는 값이 연속형인 것.
xf(x)dx=1p(X=a)=0P(aXb)=abxf(x)dx∫^∞_{-∞}xf(x)dx=1\\ p(X=a)=0\\ P(a≤X≤b)=∫^b_a xf(x)dx

  • 연속확률변수의 예시 : 신생아의 몸무게, 태풍으로 내린 강우량, 시간 등

균일 분포 (일양분포, Uniform Distribution)

모든 확률변수 X가 균일한 확률을 가지는 확률 분포

  • 예시) 얼마나 들어 있는지 알 수 없는 150ml 음료수 안에 들어 있는 음료수의 양 등

E(X)=a+b2Var(X)=(ba)212E(X) = \frac{a+b}{2}\\ Var(X) = \frac{(b-a)^2}{12}

정규 분포 (Normal Distribution)

평균이 μ 이고, 표준편차가 σ 인 분포

  • 표준편차가 클 경우 퍼져보이는 그래프가 나타난다
  • 예시) A 고등학교의 3학년 수학 점수의 분포 등

f(x)=12πσe(xμ)22σ2f(x)=\frac{1}{\sqrt{2πσ}}e^{\frac{(x-μ)^2}{2σ^2}}

t-분포 (t-Distribution)(중)

통계적으로 표본으로부터 모집단의 평균에 대한 추정을 할 때 사용되는 분포로 표준정규분포와 같이 평균이 0을 중심으로 좌우가 동일한 분포를 따른다.

  • 정규분포와 유사하지만 적은 표본으로부터 얻은 통계량의 분포를 더 정확하게 나타낸다
  • 두 집단의 평균이 동일한지 알고자 할 때 검정통계량으로 활용된다
  • 표본의 크기가 적을 때는 표준정규분포를 위에서 눌러 놓은 것과 같은 형태를 보이지만 표본이 커져서 자유도가 증가하면 표준정규분포와 거의 같은 분포가 된다

자유도란?
표본자료들이 모집단에 대한 정보를 주는 독립적인 자료의 개수를 의미한다. 예를 들어 사탕 4개와 사람 4명이 있을 때 앞의 3명까지는 원하는 사탕을 선택할 수 있다. 하지만 마지막 사람은 선택권이 없기 때문에 남은 사탕을 가져갈 수밖에 없다. 따라서 자유도는 4명에서 하나 적은 3이 된다.

카이제곱 분포 (Chi-Square Distribution)(중)

표준정규분포를 따르는 확률변수들의 제곱을 합한 분포

  • 모평균과 모분산을 알려지지 않은 두 개 이상의 집단 간 동질성 검정 또는 모분산 검정을 위해 활용

F 분포 (F-Distribution)(중)

두 집단 간 분산의 동일성 검정에 사용되는 검정 통계량의 분포

  • 확률변수는 항상 양의 값만을 갖고, x2x^2 분포와 달리 자유도를 2개 가지고 있으며 자유도가 커질수록 정규분포에 가까워진다.



7.4. 추정과 가설검정

통계적 추론은 추정과 가설검정으로 나뉘고, 추정은 점추정과 구간추정으로 나뉜다.

추정

모수(parameter)

통계적 방법론을 통해서 알고자하는 대상은 모집단의 확률분포이다. 모집단의 확률분포의 특징을 표현하는 값들을 모수(parameter)라고 한다.

  • 모수의 예) 모집단의 평균, 분산, 표준편차, 백분위수 등
  • 현실적으로 모집단 전체를 대상으로 조사하는 것은 거의 불가능하거나 쉬운 일이 아니기 때문에 대부분 표본조사를 실시하여 모수를 추정한다.

점추정 (Point Estimation)

가장 참값이라고 여겨지는 하나의 모수의 값을 택하는 것으로 '모수가 특정한 값일 것'이라고 추정하는 것

  • 모평균을 추정하기 위한 추정량(estimator)은 표본집단의 표본평균(sample mean)이 대표적이다.

구간추정 (Interval Estimation)

점추정은 '모수가 특정한 값을 것'이라 예상하는 반면, 구간추정은 일정한 크기의 신뢰수준(confidence level)으로 모수가 특정한 구간에 있을 것이라고 선언하는 것이다.

  • 항상 추정량의 분포에 대한 전제가 주어져야 하고, 구해진 구간 안에 모수가 있을 가능성의 크기(신뢰수준)가 주어져야 한다.
  • 신뢰도(신뢰수준)로는 90%, 95%, 99%의 확률을 이용하는 경우가 많다.

95% 신뢰수준 하에서 모평균의 신뢰구간

  • 모분산 σ2σ^2 이 알려져 있는 경우

    MX1.96σn,MX+1.96σn\overline{\vphantom{M}X}-1.96\frac{σ}{\sqrt{n}},\overline{\vphantom{M}X}+1.96\frac{σ}{\sqrt{n}}
    표준정규분포 N(0,1)를 따르는 Z=MXμσ/nZ=\frac{\overline{\vphantom{M}X}-μ}{σ/\sqrt{n}} 통계량 이용

  • 모분산 σ2σ^2 이 알려져 있지 않은 경우 (모분산 대신 표본분산 사용)

    MX2.26Sn,MX+2.26Sn\overline{\vphantom{M}X}-2.26\frac{S}{\sqrt{n}},\overline{\vphantom{M}X}+2.26\frac{S}{\sqrt{n}}
    자유도가 n-1인 t-분포를 따르는 T=MXμS/nT=\frac{\overline{\vphantom{M}X}-μ}{S/\sqrt{n}}

가설검정

가설검정 개념

가설검정이란 모집단에 대한 어떤 가설을 설정한 뒤에 표본관찰을 통해 그 가설의 채택여부를 결정하는 분석방법이다.

  • 표본 관찰 또는 실험을 통해 귀무가설과 대립가설 중에서 하나를 선택하는 과정이다.

귀무가설 (null hypothesis)

‘비교하는 값과 차이가 없다, 동일하다’를 기본개념으로 하는 가설. 흔히 H0H_0로 나타낸다

  • 실험, 연구를 통해 기각하고자 하는 어떤 가설로 대립가설과 상반되는 개념이다.
  • 예를 들어, 어떤 약의 효과를 검정하는 경우 귀무가설은 "이 약의 효과가 없다"라는 주장일 수 있다. 검정을 통해 귀무가설을 기각한다면, 이는 해당 약이 효과가 있다는 강력한 증거로 해석될 수 있다.

대립가설 (alternative hypothesis)

뚜렷한 증거가 있을 때 주장하는 가설. 귀무가설이 틀렸다고 판단될 경우 채택되는 가설로 H1H_1로 나타낸다.

  • 실험, 연구를 통해 증명하고자 하는 새로운 아이디어 혹은 가설에 해당한다

제1종 오류와 제2종 오류

  • 제1종 오류 (Type I Error) : 귀무가설(H0H_0)이 사실인데 귀무가설(H0H_0)을 기각하는 오류
  • 제2종 오류 (Type II Error) : 귀무가설(H0H_0)이 사실이 아닌데도 귀무가설(H0H_0)을 채택하는 오류

검정통계량 (test statistic)

귀무가설의 채택 여부를 판단하기 위해 표본조사를 실시하고, 관찰된 표본으로부터 얻을 수 있는 값

  • 귀무가설의 옳고 그름을 판단할 수 있는 값

기각역 (Critical Region)

기각역은 표본 데이터가 특정 범위에 속할 때 귀무가설을 기각하는 영역을 의미한다.

  • 기각역은 귀무가설을 기각하게 될 검정통계량의 영역으로, 검정통계량이 기각역 내에 있으면 귀무가설을 기각한다.
  • 반대로 검정통계량이 기각역 밖의 채택역(Acceptance Region)에 있으면 귀무가설을 기각할 수 없다. 기각역의 경곗값을 임곗값(ciritical value)이라고 한다.
  • 기각역은 CC로 나타낸다.

유의수준 (significance level)

귀무가설을 기각하게 되는 확률의 크기로 ‘귀무가설이 옳은데도 이를 기각하는 확률의 크기(최대 허용 한계)’를 말한다.

  • 1%(0.01)와 5%(0.05)를 주로 사용하며 가설검정을 수행하는 환경에 맞게 조절할 수 있다.
  • 제1종 오류와 제2종 오류는 서로 반비례 관계로 하나를 낮추면 다른 하나가 커지기 때문에 제1종 오류를 허용할 수 있는 최대 확률 유의수준(αα)을 설정하여 가설검정을 수행한다.

유의확률 (significance probability)

유의확률 또는 p-value는 주어진 통계량이 귀무가설을 지지하는 정도를 나타내는 값이다.

  • 귀무가설이 참이라고 가정할 때 주어진 데이터보다 더 극단적인 결과를 얻을 확률이다.
  • p-value가 유의수준 αα보다 작은 경우, 귀무가설이 참이라고 가정했을 때 이러한 결과가 나올 확률이 매우 적다고 해설할 수 있다.

비모수검정

통계적 추론에서 모집단의 모수에 대한 검정에는 모수적 방법(parametric method)과 비모수적 방법 (nonparametric method)이 있다.

모수적 검정방법

검정하고자 하는 모집단의 분포에 대한 가정을 하고, 그 가정 하에서 검정통계량과 검정통계량의 분포를 유도해 검정을 실시하는 방법

  • 관측된 자료를 이용해 구한 표본평균, 표본분산 등을 이용해 검정을 실시한다.

비모수적 검정방법

자료가 추출된 모집단의 분포에 대해 아무 제약을 가하지 않고 검정을 실시하는 검정방법으로, 관측된 자료가 특정분포를 따른다고 가정할 수 없는 경우에 이용된다

  • 관측된 자료의 수가 많지 않거나(30개 미만) 자료가 개체 간의 서열관계를 나타내는 경우에 이용한다.
  • 관측값의 절대적인 크기에 의존하지 않는 관측값들의 순위(Rank)나 두 관측값 차이의 부호 등을 이용해 검정한다.

모수적 검정과 비모수 검정의 차이점

profile
Data Analytics Engineer 가 되

0개의 댓글