Statistics basic

LegendKi·2024년 4월 23일

Upstage AI Lab 3기

목록 보기

2/8

Number of Cases

Rule of Sum

합의 법칙

두 사건 $A$ 와 $B$ 가 상호 배타적일 때, 즉 동시에 발생할 수 없을 때, 사건 $A$ 가 일어나는 경우의 수가 $m$ 이고, 사건 $B$ 가 일어나는 경우의 수가 $n$ 이면, 사건 $A$ 또는 사건 $B$ 가 일어나는 경우의 수의 총합은 $m + n$ 이다.

Rule of Product

곱의 법칙

두 독립 사건 $A$ 와 $B$ 가 있을 때, 사건 $A$ 가 일어나는 경우의 수가 $m$ 이고, 사건 $A$ 의 각각의 결과에 대하여
독립적으로 사건 $B$ 가 일어나는 경우의 수가 $n$ 이면, 두 사건 $A$ 와 $B$ 가 동시에 일어나는 경우의 수는 $m \times n$

Permutation

순열

_nP_r

서로 다른 𝑛개에서 서로 다른 𝑟개를 선택하여 일렬로 나열하는 것을 𝑛개에서 𝑟개를택한순열이라고한다.

순열의 수

_nP_r = n(n-1)(n-2)\cdots(n-r+1)

서로 다른 𝑛개에서 서로 다른 𝑟개를 선택하여 일렬로 나열하는 것을 𝑛개에서 𝑟개를택한 순열이라고한다.

n 팩토리얼

n! = n(n-1)(n-2)\times \cdots \times 2 \times 1

1부터 n까지 자연수를 차례로 곱한 것을 n 팩토리얼이라고 하면 기호는 $n!$ 처럼 나타낸다.

순열의 다른 표현

_nP_r = \frac{n!}{(n-r)!}

팩토리얼을 활용하여 $_nP_r$ 에 대한 수식을 위와 같이 간단히 나타낸다.

순열의 수 구하기 실습 코드(python)

import itertools

cards = [1, 2, 3, 4]

result = list(itertools.permutations(cards, 2))

print(result)
print(len(result))

[(1, 2), (1, 3), (1, 4), (2, 1), (2, 3), (2, 4), (3, 1), (3, 2), (3, 4), (4, 1), (4, 2), (4, 3)]
12

Combination

조합

_nC_r

서로 다른 𝑛개에서(순서를생각하지않고) 𝑟개를 선택하는 것을 𝑛개에서 𝑟개를 택한 조합이라고 하며 위와 같이 표기한다.

조합의 수

_nC_r \times r! = \frac{n!}{(n-r)!} \Longleftrightarrow _nC_r = \frac{\frac{n!}{(n-r)!}}{r!}

서로 다른 𝒏개에서 𝒓(𝟎 < 𝒓 ≤ 𝒏)개를 선택하는 조합의 수는 𝒏𝑪𝒓이고, 그 각각에 대하여 𝒓개를
일렬로 나열하는 경우의 수는 𝒓!이라고 할 수 있다.
그런데 서로 다른 𝒏개에서 𝒓(𝟎 < 𝒓 ≤ 𝒏)개를 선택하여 일렬로 나열하는 순열의 수는 𝒏𝑷𝒓이므로 곱의 법칙에 의하여 위와 같이 표현 된다.

조합의 수 구하기 실습 코드

import itertools

cards = [1, 2, 3, 4]

result = list(itertools.combinations(cards, 2))

print(result)
print(len(result))

[(1, 2), (1, 3), (1, 4), (2, 3), (2, 4), (3, 4)]
6

Probability Theory

확률 기본용어

시행

동일한 조건 아래서 몇번이고 되풀이 할 수 있고 그 결과가 우연에 따르는 관찰이나 실험 (ex. 주사위 던지기, 동전 던지기)

표본 공간

시행에 따라 나타낼 수 있는 모든 가능한 결과들의 집합 (ex. 주사위를 1회 던졌을 때 표본공간은 {1, 2, 3, 4, 5, 6})

근원사건

표본공간을 이루는 각각의 결과 (ex. 주사위를 1회 던졌을 때, 근원사건 1, 2, 3, 4, 5, 6)

사건

근원사건의 집합이자 표본공간의 부분집합 (ex. 주사위를 1회 던졌을 때 홀수가 나올 사건 {1, 3, 5}

합사건

사건 $A$ 와 $B$ 에 대해 $A$ 가 발생하거나 $B$ 가 발생하는 사건

교사건

사건 $A$ 와 $B$ 에 대해 $A$ 와 $B$ 가 동시에 발생하는 사건

배반사건

사건 $A$ 와 $B$ 에 대해 $A$ 나 $B$ 중 어느 하나의 사건이 발생하면 다른 사건이 발생하지 않는 사건

여사건

사건 $A$ 에 대해 $A$ 가 발생하지 않는 사건

Mathmatical Probability

수학적 확률

P(A) = \frac{n}{N}

표본공간 $S$ 속의 모든 원소가 나올 가능성이 동일하고 $n(S) = N$ , 사건 $A$ 에 대하여 $n(A) = n$ 이면 $A$ 의 확률은 위와 같다.
모든 사건 $A$ 에 대하여 확률 $P(A)$ 는 $0 \leq P(A) \leq 1$
반드시 발생하는 사건 $S$ 에 대하여 확률 $P(S) = 1$
절대로 발생하지 않는 사건 $∅$ 에 대하여 $P(∅) = 0$

통계적 확률

\frac{r}{N} \fallingdotseq P(A) \quad \text{이지만}, \quad \lim_{N \to \infty} \frac{r}{N} = P(A)

통계적 확률은 시행을 $N$ 번하여 사건 $A$ 가 일어난 횟수를 $r$ 이라고 할 때 $N$ 을 충분히 크게 하면 상대 도수로 나타나는 $\frac{r}{N}$ 이 일정한 확률 값 $P(A)로 근사하게 된다는 것을 의미한다.

확률의 덧셈법칙

서로 다른 사건 $A$ 와 사건 $B$ 가 발생할 때 $A$ 또는 $B$ 가 일어날 확률은 $P(A \cup B) = P(A) + P(B) - P(A \cap B)$ 단 배반사건이라면 $P(A \cap B) = P(A) + P(B)$

Conditional Probability

조건부 확률

P(B|A) = \frac{P(B \cap A)}{P(A)}

확률의 덧셈법칙은 사건 $A$ 와 사건 $B$ 가 발생하는 과정에 순서 개념이 없다. 하지만 사건 $A$ 가 발생한 상황 하에 사건 $B$ 가 발생할 확률을 구하고자 할 때 조건부 확률을 구하게 되며 $P(B|A)$ 로 표시한다.

확률의 곱셈법칙

P(B \cap A) = P(A) \cdot P(B|A)

독립사건

P(B|A) = P(B|A^C) = P(B)

P(B \cap A) = P(A) \cdot P(B|A) = P(A) \cdot P(B)

두 사건 $A$ 와 $B$ 에서 한 사건의 결과가 다른 사건에 영향을 주지 않을 때 $A$ 와 $B$ 를 독립 사건이라고 하며 위와 같이 표현한다.

종속사건

P(B|A) \neq P(B|A^C) \neq P(B)

두 사건 $A$ 와 $B$ 에서 한 사건의 결과가 다른 사건에 영향을 줄 때 $A$ 와 $B$ 를 종속사건이라고 하며 다음과 같이 표현한다.

Variables & Scales

Variables

변수

변화하는 모든 수를 의미한다. (ex. 사람의 키, 체중 등)

변수는 인과관계에 의하여 독립변수와 종속변수로 구문할 수 있다.

독립변수 : 다른 변수에 영향을 주는 변수를 의미한다.
종속변수 : 독립변수에 의하여 변화되는 변수를 의미한다.
매개변수 : 종속변수에 영향을 주는 독립변수 이외의 변수로서 연구에서 통제되어야 할 변수를 의미한다.

변수는 속성에 따라 질적변수와 양적 변수를 구분할 수 있다.

질적변수 : 분류를 위하여 정의되는 변수를 의미한다.
- 비서열 질적 변수 : 서열이 정해질 수 없는 변수 (ex. 성별, 인종, 학력 등)
- 서열 질적 변수 : 서열적으로 구분할 수 있는 변수를 의미한다. (ex. 초졸, 중졸, 대졸)
양적변수 : 양의 크기를 나타내기 위해 수량으로 표시되는 변수를 의미한다.
- 연속변수 : 주어진 범위 내에서 어떤 값도 가질 수 있는 변수 (ex. 체중, 나이, 키 등)
- 비연속변수 : 특정 수치만을 가질 수 있는 변수 (ex. IQ점수, 나이 등)

척도

데이터는 성격에 따라 크게 범주형 척도와 연속형 척도로 구분한다.

범주형 척도 : 데이터들을 구분지어 나눌 수 있는 척도로서 명목척도와 서열척도로 구분한다.
- 명목척도 : 수나 순서와 관계없이 이름만 붙여지는 척도 (ex. 남/여)
- 서열척도 : 명목척도와 유사하게 숫자와 연산과는 관련이 있으나 순서(서열)을 구분할 수 있는 척도 (ex. 1등, 2등, 3등)
연속형 척도 : 연속하는 데이터를 연구나 조사의 목적에 맞게 구분한 척도로서 등간척도와 비율철도로 구분한다.
- 등간척도 : 명목척도 또는 서열척도와는 달리 측정한 자료들을 대상으로 합과 차가 가능한 척도 (ex. 온도)
- 비율척도 : 비율척도는 등간척도의 성질과 함께 '없다'의 개념인 0값도 가지는 척도 (ex. 부피, 질량)

Population & Sample

Population

모집단

통계적 연구대상이 되는 전체 집합 (ex. 모든 대한민국의 국민, 유튜브 회원 전체)

모수

모집단을 분석하여 알아낸 결과 수치로 모집단의 특성값 (ex. 모평균( $\mu$ ), 모분산( $\sigma^2$ ), 모표준편차( $\sigma$ ) 등)

Sample

표본

과학적인 방법으로 모집단을 대표할 수 있는 일부를 추출하여 연구나 조사를 실시하고자할 때 선택한 모집단의 일부

통계량

표본을 분석하여 알아낸 결과 수치 (표본평균( $\bar{x}$ ), 표본분산( $s^2$ ), 표본표준편차( $s$ ) 등

표본추출 방법

확률적 표본추출 방법 : 모집단에서 표본을 추출할 때 동일한 확률 아래서 표본을 구성하는 방법
- 단순 무작위 표본추출 : 일정한 규칙을 적용하여 모집단으로부터 표본을 기계적으로 추출하는 방법 (ex. 컴퓨터로 추출, 난수표를 활용)
- 체계적 표본추출 : 모집단을 대상으로 각각에 대해 번호를 제공하고 n개의 간격으로 표본을 추출하는 방법
- 비례 층화 표본 추출 : 모집단을 여러개의 다른 집단으로 구분한 후 각 집단의 구성을 고려하여 비례적으로 추출하는 방법
- 다단계 층화 표본추출 : 비례 층화 표본추출에서 상위-하위 표본 단위를 설정한 후 설정한 값에 따라 다시 추출하는 방법
- 군집 표본 추출 : 모집단의 구성이 내부 이질적인 동시에 외부 동질적으로 구성되어 있을 경우 모집단 전체를 조사하지않고 몇개의 군집을 표본으로 선택해서 조사하는 방법
비확률적 표본추출 방법 : 모집단으로부터 표본을 추출할 때 확률과 상관없이 연구자나 조사자가 자신의 생각대로 표본을 뽑거나 연구나 조사 대상이 표본을 구성하는 방법
- 판단 표본추출 : 연구자나 조사자가 적절하다고 판단된 구성원들을 표본으로 선정하는 방법
- 할당 표본추출 : 모집단의 속성을 대표할 수 있는 연령, 학력, 직업 등을 구분하여 결정한 후 각각에 대한 표본의 개수를 미리 정한다. 그러고나서 연구자나 조사자가 정한 표본의 개수에 따라 임의로 표본을 추출하는 방법
- 자발적 표본추출 : 연구자나 조사자의 생각과는 달리 응답자가 원하여 직접 연구나 조사에 응하는 경우 표본으로 선정하는 방법

Descriptive Statistics

기술통계

통계란 여러가지 현상에 대해서 수리적으로 정리, 분석, 예측하는 작업
기술통계란 수집된 자료의 특성을 요약 정리하는 것

기술통계량

통계량은 표본을 분석하여 얻은 결과로서 기술 통계량이라고 한다. 기술하고자 하는 대상은 표본이며 표본이 모집단에 대한 대표성을 가지고 있음을 설명한다.

기술계량의 구분

표본을 설명하고자 할 때 표본의 중심이 되는 값이 어느 정도 되는지 조사하며 표본의 중심이 되는 값은 기준을 어떻게 정하느냐에 따라 달라질 수 있다.

중심 경향도 : 평균, 중앙값, 최빈값 등
산포도 : 분산, 표준편차, 범위
비대칭도 : 왜도, 첨도

평균

\bar{x} = \frac{(x_1 + x_2 + \dots + x_n)}{n} = \frac{1}{n} \sum_{i=1}^{n} x_i

평균은 통계에서 가장 많이 사용되는 중심 경향도로서 모든 통계분석에서 사용되며 표본의 특성을 살펴볼 때 먼저 확인하는 수치이다.

중앙값

X_M = \frac{(n+1)}{n}\text{번째의 측정치, (n이 홀수인 경우)}

X_M = \frac{\left(\frac{n}{2}\text{번째 수} + \frac{n+2}{2}\text{번째 수}\right)}{2}\text{번째의 측정치, (n이 짝수인 경우)}

중앙값은 관측된 자료의 편중과는 상관없이 최소값부터 최대값까지 나열했을 때 가운데 위치한 값이다.

최빈값

최빈값은 표본에서 가장 많이 관찰되는 관측치이다.

모분산

\sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2

표본의 분포 특성을 잘 드러내지 못하는 평균의 단점을 해소하기 위해 평균과 각 표본들이 얼마나 떨어져 있는지를 측정한 차이(편차)를 확인한다.

표본분산

S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 \quad (\bar{x}: \text{표본평균})

모집단을 기준으로 하지 않고 표본을 선정하여 표본의 개수를 (n-1)로 계산한 분산을 표본분산이라고 한다.

표본표준편차

S = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2} \quad (\bar{x}: \text{표본평균})

표본분산 값에 루트를 씌워준 값

사분위수

사분위수는 측정값을 오름차순으로 작은 수부터 큰 수의 순서로 나열하고 누적 백분율을 4등분한 각 점의 수치를 의미한다.

왜도

왜도는 자료의 분포가 어느정도로 비대칭적으로 분포되어 있는지를 나타내는 통계 지표이다.

첨도

첨도는 분포곡선의 봉우리가 얼마나 뾰족한지를 나타내는 수치이다. 정규분포는 첨도가 3이며 0으로 표현되며 첨도가 3보다 크면 정규분포보다 뾰족하고 작으면 완만한 모양을 나타낸다.

기술통계 실습

import pandas as pd

df = pd.read_csv('gapminder.tsv', sep='\t')

df

freaquency_table = df.groupby('year')['pop'].sum().reset_index()

freaquency_table

import matplotlib.pyplot as plt

plt.hist(df['lifeExp'], alpha=0.2, bins=7, rwidth=120, color='red')

labels = [1, 2, 3, 4, 5]
colors = ['red', 'green', 'blue', 'yellow', 'purple']
plt.pie(labels, colors = colors, autopct = '%.1f%%', shadow=False, startangle=90)
plt.axis('equal')

import seaborn as sns

sns.boxplot(x='continent', y='lifeExp', data=df)

Random Variable

확률변수

확률변수란 시행의 결과(사건)에 실수값을 대응시킨 후 그 값에 확률을 부여한 것이다.

이산확률변수 : 수집한 데이터의 확률변수 중에서 셀 수 있는 값들로 구성되거나 일정한 범위로 나타낼 수 있는 확률변수
연속확률변수 : 연속형 또는 무한한 경우와같이 셀 수 없는 확률변수

확률함수

확률함수란 확률 $P$ 를 가진 어떤 사건에 대하여 $n$ 번 시행하여 $x$ 번이 나타날 때 확률변수 $x$ 와 이에 대응하는 $P(x)$ 의 관계를 나타내는 함수이다.

확률변수의 평균

E(X) = \sum_{i=1}^{n} x_i P(x_i)

확률변수의 평균은 기대값과 같은 의미로 사용된다. 기대값이란 어떤 사건에 대해서 해당 사건이 벌어질 확률을 곱해서 전체 사건에 대하여 합한 값을 의미하며 다음과 같이 표현한다.

확률변수의 분산

\text{Var}(X) = E\left((X - \mu)^2\right) = \sum_{i=1}^{n} (x_i - \mu)^2 P(x_i)

확률변수의 분산은 기대값의 특성을 나타내는 값으로 확률변수들이 기대값으로부터 벗어난 정도로 표현한다.

Probability Distribution

확률분포

확률분포는 미래에 일어날 사건에 대하여 확률을 나열한 것을 의미한다. 일반적으로 확률분포는 표나 그래프 표상으로 나타낸다.

균등분포

과거의 경험이 미래를 예측함에 있어 어떠한 영향도 미치지 않고 발생할 가능성이 동일한 분포를 의미한다.

이산균등분포

정의된 구간에서 확률분포 함숭의 모든 확률이 동일한 분포이다.
확률변수가 $x_1,x_2,\cdots,x_n$ 으로 $n$ 개일 때 $x_i$ 의 확률은 $\frac{1}{n}$
확률변수 $X$ 의 확률함수는 $f_x(x)=\frac{1}{n}$

연속균등분포

특정 범위내에서 모든 확률함수가 동일한 분포
확률변수 $X$ 가 a와 b구간에서 균등분포를 가질 때 확률변수 $X$ 의 확률함수는 $\frac{1}{b-a}(a \leq x \leq b)$
확률변수 $X$ 의 확률함수는 $f_x(x) = X \sim U(a,b)$

정규분포

f_X(x) = \frac{1}{\sqrt{2\pi\sigma}} \cdot e^{-\frac{(x-m)^2}{2\sigma^2}} \quad (-\infty < x < \infty)

표본분포 중 가장 단순하면서 많이 나타나는 형태의 분포

정규분포의 성질

어떤 실수 $x$ 에 대해 $f(x) > 0$
분포곡선은 평균 $m$ 을 기준으로 좌우대칭
곡선과 $x$ 축 사이의 넓이는 1
곡선 내 임의의 $a, b$ 가 $a<b$ 일 때 $a$ 와 $b$ 에 속할 확률 $P(a \leq X \leq b)$ 는 $a, b$ 와 곡선 사이의 넓이와 같다.

표준정규분포

\frac{1}{\sqrt{2\pi}} \cdot e^{-\frac{z^2}{2}} \quad (-\infty < x < \infty)

일반적으로 정규분포를 활용하여 결과를 도출하는 것에는 문제가 없지만 대다수의 연구나 조사에서는 복잡한 관계를 분석하는 경우가 대부분이므로 여러가지 특성에 대한 분석 결과들을 서로 비교할 수 있도록 만드는 과정이다. 즉 서로 다른 정규 분포들을 비교하기 위해 평균이 0 표준편차는 1을 기주능로 각각의 정규분포들을 표준화한 분포

정규분포 실습

import numpy as np
import matplotlib.pyplot as plt

mu, sigma = 0, 0.1

s = np.random.normal(mu, sigma, 1000)

count, bins, ignored = plt.hist(s, 30, density=True)
plt.plot(bins, 1/(sigma*np.sqrt(2*np.pi))*
         np.exp(- (bins - mu)**2 / (2*sigma**2)), linewidth=2, color='r')
plt.show()

import numpy as np
import matplotlib.pyplot as plt

# 평균과 표준편차 설정
mu = 0
sigma = 0.1

# 충분히 넓은 범위의 x값 설정
x = np.linspace(mu - 3*sigma, mu + 3*sigma, 1000)

# 정규분포의 확률밀도함수 계산
pdf = 1/(sigma * np.sqrt(2 * np.pi)) * np.exp(-0.5 * ((x - mu) / sigma)**2)

# 선 그래프로 PDF 그리기
plt.plot(x, pdf, linewidth=2, color='r')
plt.title('Normal Distribution PDF')
plt.xlabel('Value')
plt.ylabel('Probability Density')
plt.show()

import numpy as np
import matplotlib.pyplot as plt

# 이항 분포 데이터 생성
data = np.random.binomial(n=10, p=0.5, size=1000)

# 각 결과값의 빈도 계산
values, counts = np.unique(data, return_counts=True)

# plt.plot을 사용하여 선 그래프 그리기
plt.plot(values, counts, marker='o', linestyle='-')
plt.xlabel('Number of Successes')
plt.ylabel('Frequency')
plt.title('Binomial Distribution (n=10, p=0.5)')
plt.grid(True)
plt.show()

베르누이 시행

서로 반대되는 사건이 일어나는 시행을 반복적으로 실험하는 방법으로 서로 반대되는 사건이란 반드시 두가지만 존재하며 동시에 일어나지 않는 배타적인사건을 의미한다.

베르누이 분포

\mu = E(X) = 1 \cdot p + 0 \cdot (1 - p) = p

\sigma^2 = \text{Var}(X) = E(X^2) - \{E(X)\}^2 = 0^2 \cdot p^{0}(1 - p)^{1-0} + 1^2 \cdot p^{1}(1 - p)^{1-1} - p^2 = p - p^2 = p(1 - p)

베르누이 시행을 확률분포로 나타낸 것으로 성공확률을 $p(x=1)$ 라고 할 때 실패확률은 $1-p(x=0)$ 으로 가정한다.

이항분포

연속적인 베르누이 시행을 통해 표현된 확률분포로 서로 독립적인 베르누이 시행을 $n$ 회 반복하여 성공한 횟수를 $X$ 라할 때 성공한 $X$ 의 이항분포라고 한다.

이항분포의 평균과 분산은 다음과 같다.

\mu = np

\sigma^2 = np(1-p)

성공확률 $p$ 에 대하여 베르누이 시행을 n회 반복한 이항분포를 $X \sim B(n,p)$ 와 같이 표현한다.

이항분포 확률의 계산

P(X = r) = \frac{n!}{r!(n-r)!} \cdot p^r \cdot (1-p)^{(n-r)}

이항분포의 확률은 $n$ 번의 시행에서 성공확률 $(p)$ 이 $r$ 번 나타날 확률이므로 $n$ 번의 시행에서 $r$ 번 관찰되는 것으로 표현 가능하다 $n$ 번의 시행에서 $r$ 번 성공할 확률과 $n-r$ 번의 실패할 확률을 곱하면 잏항분포의 확률함수는 위와 같다.

이항분포 실습

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

sns.distplot(np.random.binomial(n=10, p=0.7, size=1000), hist=True, kde=False)
plt.show()

Estimation & Test

기술통계와 추리통계

통계 : 여러가지 현상에 대하여 수리적으로 정리, 분석, 예측하는 작업이다.
- 기술통계 : 수집된 자료의 특성을 요약하는 것이 목적이다. (중심경향도, 산포도)
- 추리통계 : 분석된 자료를 근거로 모집단의 특성을 추론하는 것이 목적이다. (점추정, 구간추정, 가설, 검정 통계량 등)

추정 관련 용어

추정 : 추정이란 어떠한 정도를 가늠하는 방법으로 수치로 나타내거나 범위로 나타낼 수 있다.
- 점추정 : 모수를 어떤 특정 수치로 표현하는 것
- 구간추정 : 모수를 최소값과 최대값의 범위로 표현하는 것
추정치 : 모수를 추정하기 위하여 선택된 표본으로부터 구체적으로 도출된 통계량
추정량 : 표본으로부터 관찰된 값을 토대로 추정치를 계산할 수 있는 함수

점추정

표본을 이용하여 모집단의 특성(모수)을 단일한 값으로 추정하는 방법이다.

평균 오차제곱 : 평균 오차제곱이 최소값이어야 한다.
일치성 : 표본의 크기가 모집단의 규모에 근접해야한다.
불편성 : 추정량이 모수와 같아야한다.
유효성 : 추정량의 분산이 최소값이어야한다.
충분성 : 표본이 모집단의 대표성을 가져야한다.

구간추정

점추정은 명확한 수치를 제공한다는 장점이 있으나 연구자나 조사자 입장에서 오차가 커지는 문제가 있어 오차를 줄이기 위하여 신뢰도를 제공하면서 상한값과 하한값으로 모수를 추정하는 방법으로 구간추정을 사용한다.

신뢰구간

신뢰구간은 상한값과 하한값의 구간으로 표시한다. 신뢰수준을 기준으로 추정된 점으로부터 음의 방향과 양의 방향으로 하한과 상한을 표시한다.
신뢰 수준이란 추정하고자 하는 값이 존재하는 구간에 모수가 포함될 확률을 의미한다.

\bar{x}-z\cdot SE \leq \mu \leq \bar{x}+z\cdot SE

모평균 $(\mu)$ 을 추정하고자 할 때 표본평균을 $\bar{x}$ 표준 오차를 $SE$ 라고 한다.
표준오차란 표본평균의 표준 편차로서 표본이 참값인 모평균으로부터 얼마나 떨어져 있는지를 나타내는 값이다.

가설

가설이란 주어진 사실이나 연구하고자 하는 사실이 어떠할 것인지를 주장하거나 추측하는 것으로 통계학적으로는 모수를 추정하고자 할 때 모수가 어떠할 것인지를 연구자나 조사자가 주장하거나 추측하는 것을 가설이라고 한다.

귀무가설

귀무가설은 입증하고자 하는 가설로 일반적으로 믿어온 사실을 가설로 설정한 것이다.
이 때 표현은 '~와 차이가 없다', '~의 효과는 없다', '~와 같다'가 되어야한다.
여가설이라고도 하며, $H_0$ 으로 표기한다.

대립가설

대립가설은 귀무가설과 반대되는 가설로 연구의 목적이 된다.
이 때 표현은 '~와 차이가 있다', '~의 효과가 있다', '~와 다르다'가 되어야한다.
연구가설이라고도 하며 $H_1$ 으로 표기한다.

오류의 종류

1종 오류 : 귀무가설이 참임에도 불구하고 귀무가설을 기각하는 오류 즉, 실제로 효과가 없는데도 효과가 있다고 하는 것
2종 오류 : 대립가설이 참임에도 불구하고 대립가설을 기각하는 오류 즉, 실제로 효과가 있는데 효과가 없다고 하는 것

유의수준

가설검정에서 귀무가설을 기각시키고 대립가설을 채택할 확률을 유의수준이라고 한다. 즉, 유의 수준이란 표본으로부터 구한 통계량 값을 귀무가설이 참이라는 전제하에서 어느정도 얻기 힘든 값인지를 나타내주는 확률 수준을 의미한다.
유의수준은 $\alpha$ 로 표시하고 유의수준을 0.05로 정했을 때 도출된 유의확률이 0.05보다 적어야 연구자나 조사자는 귀무가설을 기각하고 대립가설을 채택할 수 있다.

유의확률

유의확률을 p-Value라고 하며 귀무가설을 기각할 수 있는 최소한의 확률을 의미한다. 유의수준을 기준으로 유의확률이 유의수준보다 높으면 귀무가설을 채택하고 낮으면 대립가설을 채택한다.

t-test

t-test는 검정통계량이 귀무가설 하에서 t-분포를 따르는 통계적 가설 검정법이다.
t-test는 t분포에 의존하여 의사결정을 하며 단일표본 t-test, 두 종속표본 t-test, 독립표본 t-test 등이 있다.

귀무가설과 대립가설

통게적으로 가설 검정의 대상이 되는 가설에는 기존의 믿어온 사실이 맞다는 귀무가설과 기존에 밎어온 사실이 실제와 다르다는 대립가설이 있다.

검정 통계량

표본 통계량을 계산햇을 때, 귀무가설이 가지는 값이 모수로부터 어느정도 떨어져 있는지 나타내는 지표이다.

임계치

임계치는 귀무가설을 기각하거나 채택하기 위한 한계값을 의미한다. 검정통계량을 계산하여 임계치를 기준으로 좌/우 어느쪽에 있는가에 따라 채택과 기각을 판단한다.

유의수준과 p-value

검정통계량을 해석하기 위해 귀무가설이 발생할 가능성을 확률로 표시한 것으로 $\alpha$ 는 유의수준으로 전적으로 연구자가 결정하게 되는데 이는 연구자가 연구에 맞는 적절한 유의수준을 기준으로 가설을 검정할 것이기 때문이다.
유의수준은 확률로 표시되므로 약자를 사용하여 p-value로 표시한다.

결과의 해석

검정통계량을 계산한 값이 어느 영역에 포함되는지를 확인하여 가설의 채택/기각 여부를 판단한다. 일반적으로 연구자는 유의수준을 보면서 해석한다. p-value를 기준으로 값이 작게 나온다면 귀무가설을 기각하고 대립가설을 채택한다.

t-test를 위한 기본가정

종속 변수가 양적 변수여야 한다.
모집단의 분산, 표준편차를 알지 못할 때 사용한다.
모집단의 분포가 정규분포여야한다.
등분산 가정이 충족되어야한다.

단일표본 t-test

단일표본 t-test란 모집단의 분산을 알지 못할 대 모집단에서 추출된 표본의 평균과 연구자나 조사자가 이론적 배경이나 경험적 배경에 의해서 설정한 특정한 수를 비교하는 방법

두 종속표본 t-test

두 종속표본 t-test란 알지 못하는 각기 다른 두 모집단의 속성인 평균을 비교하기 위해 두 모집단으로부터 표본들을 추출하여 표본의 평균들을 비교함으로써 모집단의 평균을 비교는 통계적 방법이다.

독립표본 t-test

독립표본 t-test란 다른 두 모집단의 속성인 평균을 비교하기 위해서 두 모집단을 대표하는 표본들을 독립적으로 추출하여 표본의 평균들을 비교함으로써 모집단의 유사성을 검정하는 방법이다.

ANOVA

분산분석

분산분석은 통계학에서 두 개 이상 다수의 집단을 서로 비교하고자 할 때 집단 내 분산, 집단 간 분산의 비교를 통해 만들어진 F분포를 이요하여 가설검정을 한다. 즉, 3개 이상의 집단에 대한 평균의 차이를 검정하는 분석방법이다.

F분포

F분포는 분산의 비교를 통해 얻어진 분포 비율을 의미한다. 즉, F분포는 두개의 분산에 관한 추론으로 $F(v_1,v_2)$ 로 나타낸다. 이 때 $v_1, v_2$ 는 각각의 $x^2$ 에 대한 분산을 의미한다.

분산분석의 구분

일원 분산분석(one-way ANOVA)
한가지 기준이 되는 요인으로 비교하고자 하는 변순의 평균차이가 집단간에 존재하는지를 조사하는 방법이다.
이원 분산분석(two-way ANOVA)
두가지 기준이 되는 요인으로 비교하고자 하는 변수의 평균 차이가 집단간에 존재하는지를 조사하는 방법이다.
다원 분산분석(multi-way ANOVA)
세가지 이상의 기준이 되는 요인으로 비교하고자 하는 변수의 평균 차이가 집단 간 존재하는지를 조사하는 방법이다.
다변량 분산분석(multi-variate ANOVA)
1개 이상이 되는 요인에 대해 비교하고자 하는 2개 이상의 변수를 기준으로 집단간에 차이가 있는지를 조사하는 방법이다.

분산분석을 위한 기본 가정

종속변수가 양적 변수여야한다.
각 집단에 해당되는 모집단의 분포가 정규분포여야한다.
각 집단에 해당되는 모집단들의 분산이 같아야한다.

One-Way ANOVA

일원 분산분석

일원분산분석이란 독립변수가 하나일 때 분산의 원인이 집단간 차이에 기인한 것인지를 분석하는 통계적 방법이다. (ex. 사회계층에 따른 사회에 대한 만족도 차이)

사후분석

분산분석의 귀무가설은 전체 집단의 평균에 차이가 없다고 말하고 이를 전체 가설이라고 한다.
일원 분산분석에서 귀무가설이 기각되고 대립가설이 채택되었다면 비교 집단들의 모집단의 평균이 차이가 있음을 의미한다.

Two-Way ANOVA

이원 분산분석

이원분산분석이란 두가지 기준이 되는 요인으로 비교하고자 하는 변수의 평균차이가 집단간에 존재하는지를 조사하는 것 즉, 요인이 2개일 때 분산의 원인이 어디에 있는지를 밝힘으로써 요인에 영향이 있는가를 알 수 있다.

상호작용 효과

이원 분산분석은 각 요인에 해당하는 각각의 분석 결과 외에도 두 요인 간에 영향을 주고받는 연관성을 확인할 필요가 있다. 따라서 이원 분산분석에서는 요인이 독립적으로 변수에 미치는 영향의 평균 차이를 확인하는 주효과 검정뿐만이 아니라 요인들이 연관되어 변수에 영향을 미치는 상호작용 효과를 검정한다. 즉, 상호작용 효과란 두 개의 요인이 동시에 작용하여 변수에 미치는 효과를 의미한다.

Correlation Analysis

상관 분석

상관 분석은 두 변수간에 어느정도의 선형적 관계가 있는지 파악하는 방법이다. 상관 관계의 정도를 나타내는 지수인 상관계수를 통해 분석한다.

피어슨 상관계수

r_{xy} = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})} {\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2 \sum_{i=1}^{n}(y_i - \bar{y})^2}}

피어슨 상관 계수는 두 데이터 $X, Y$ 즉 $(x_1,y_1), (x_2,y_2),\cdots,(x_n,y_n)$ 에 대해서 X와 Y가 함께 변하는 정도를 X와 Y가 각각 변하는 정도로 나눈 것이다.

LegendKi

이전 포스트

웹 크롤링 (Web Crawling)

다음 포스트