통계를 좀 더 깊숙히 파고들어보자!
이산점(Discrete Points)에서 0이 아닌 확률값을 가지는 확률변수이산형 확률변수의 확률
확률질량함수(Probability Mass Function, PMF)이산점에 있어서 확률의 크기를 표현하는 함수두 개의 주사위를 던지는 실험에서 확률변수 X를 'X=두 주사위 눈금의 합'이라고 정의한다면 X의 이산형 확률분포는 아래와 같음
이산형 확률변수의 확률조건
특정 실수 구간에서 0이 아닌 확률을 갖는 확률변수특정한 실수구간 내에서 0이 아닌 확률을 가지므로 이 구간에 대한 확률은 함수의 형태로 표현확률밀도함수(Probability Density Function, PDF)연속형 확률변수 X의 확률함수를 f(x)라고 할 때, f(x)연속형 확률변수의 확률조건
확률변수 X가 0과 1사이에서 균등한 분포를 가진다면 X의 확률밀도함수
특정 값 a에 대하여 확률변수 X가 X<=a인 모든 경우의 확률의 합

이산형 확률변수의 Fx(a)

연속형 확률변수의 Fx(a)

누적분포함수는 증가함수이고, 우측연속함수이며 0과 1사이 값을 가짐
확률분포와의 관계
: 확률변수의 누적분포함수는 그 확률분포를 유일하게 결정
구간(a,b]에 대한 X의 확률은 Pr(a<x<=b)=Fx(b)-Fx(a)


두 집단이 서로 독립이라는 전제조건 하에 두 모평균 차이에 대한 추정

투약 전후나 이벤트 성과 비교와 같이 짝을 이루는 각 쌍에 대한 표본을 대상으로 모평균의 차이 𝜇_1−𝜇_2에 대한 추정에는 대응 표본(Pairwise Sample) 사용
중심극한정리(Central Limit Theorem, CLT)

자료가 관찰된 모집단의 분포가 실제로 정규분포가 아닌 경우에도 중심극한정리에 의하여 정규분포를 이용한 추정량의 근사확률을 구할 수 있음

검정통계량의 분포에서 유의수준 α에 의해 기각역 C의 크기가 결정기각역의 위치는 대립가설 H1의 형태에 의해 분포의 양쪽 끝(양측검정) 또는 한 쪽 끝(단측검정)으로 나뉨오른쪽 끝에 위치 : 오른쪽 단측검정왼쪽 끝으로 위치 : 왼쪽 단측검정귀무가설 H0가 "모수가 특정값(μ0)이다"라고 할 때 대립가설 H1
가설검정 단계
검정하고자 하는 목적에 따라서 귀무가설(H0)과 대립가설(H1)을 설정검정통계량 T(X)를 구하고 그 분포를 구함유의수준 α를 결정하고 검정통계량 T(X)의 분포에서 대립가설의 형태에 따라 유의수준 α에 해당하는 기각역C 설정귀무가설(H0)이 옳다는 전제 하에서 표본관찰에 의한 검정통계량 T(X)의 값을 구함T(X)의 값이 기각역 C에 속하는가를 판단하여, 기각역에 속하면 귀무가설(H0)을 기각하고 기각역에 속하지 않으면 귀무가설(H0)을 채택*신뢰구간과 양측검정과의 관계

유의수준이 α인 양측 검정에서의 귀무가설의 특정값(μ0)이 (1-α)x100% 신뢰구간 내에 포함된다면, 귀무가설(H0) 채택95% 신뢰구간이 [49.50, 51.5]라고 가정,신뢰구간이 50을 포함하므로 유의수준 5%에서 대립가설(H1) "모평균이 50이 아니다.(μ!=50)(즉,μ0=50)"를 채택서열상관계수는 집단 내의 개별 관측치를 두 개의 서로 다른 관점이나 특성으로 평가한 순위값들을 이용해서 분석하는 경우에 사용단조함수(Monotonic Function)두 변수의 순위 사이의 의존성을 측정하는 비모수 척도두 변수의 관계가 얼마나 잘 설명될 수 있는지 판단순서관계 <=를 보존하거나 반전시키는 함수x<=y이면 f(x)<=f(y), x<=y 이면 f(x)>=f(y)스피어만 상관계수는 두 변수 사이의 선형 관계를 평가하는 피어슨 상관계수와 달리, 선형 여부와 관계없이 두 변수가 단조적 관계가 있는지를 평가중복 데이터가 없다는 가정하에 각 변수가 다른 변수의 완벽한 단조 함수일 때 +1또는 -1의 관계 발생스피어만 상관 계수 = 두 변수의 순위 값 사이의 피어슨 상관계수선형관계(피어슨) vs 두 변수 사이의 단조적 관계(선형X)(스피어만)
모집단의 모수에 대해 추정을 한 후에는 모집단에 대해 어떤 가설(Hypothesis)을 설정한 후 그 가설의 타당성 여부 검정한 집단, 두 집단, 독립적인 집단의 평균부터 분산 검정 등에 대한 통계 분석 방법론을 알아보자.


t-검정 : 두 집단 간의 평균 차이 비교하는 통계분석 방법분산분석 : 두 개 이상의 다수 집단 간 평균을 비교하는 통계분석 방법독립변수(x)의 개수에 따라 일원배치 분산분석, 이원배치 분산분석, 다원배치 분산분석으로 나뉨분산분석의 개념
두 개 이상의 집단에서 그룹 평균 간 차이를 그룹 내 변동에 비교하여 살펴보는 통계 분석 방법두 개 이상 집단들의 평균 간 차이에 대한 통계적 유의성을 검증(두 개 이상의 집단들의 평균을 비교)하는 방법일원배치 분산분석의 개념
분산분석에서 반응값에 대한 하나의 범주형 변수의 영향을 알아보기 위해 사용되는 검증 방법모집단의 수 : 제한X각 표본의 수 : 같지 않아도 됨F-통계량(분산) 이용표본의 수가 동일한 경우Yij는 i번째 집단의 j번째 관측값)
일원배치 분산분석의 가정
측정치는 서로 독립적이며, 정규분포를 따름측정치의 분산은 같다(등분산 가정)분산분석표

가설 검정
귀무가설(H0) : k개의 집단 간 모평균에는 차이가 없다.(μ_1=μ_2=...=μ_k)대립가설(H1) : k개의 집단 간 모평균이 모두 같다고 할 수 없다.H0 is not true)사후 검정
분산분석의 결과 귀무가설이 기각되어, 적어도 한 집단에서 평균의 차이가 있음이 통계적으로 증명되었을 경우, 어떤 집단들에 대해서 평균의 차이가 존재하는지를 알아보기 위해 실시하는 분석종류던칸(Duncan)의 MRT(Multiple Range Test)피셔(Fisher)의 최소유의차(LSD)튜키(Tukey)의 HSD방법Scheffe의 방법범주형일 때 사용하는 분석 방법론설명변수(x)와 반응변수(y)에 따른 범주형 자료 분석 방법론 분류
여러 개의 범주형 변수를 기준으로 빈도를 표 형태로 나타낸 것2개의 범주형 변수(학년, 성적 등급)별 빈도
범주형 변수가 1개 : 1원 분할표범주형 변수가 2개 : 2원 분할표범주형 변수가 3개 이상 : 다원 분할표분할표의 행 : 설명변수(x)분할표의 열 : 반응변수(y)범주형 자료를 분석시 분할표를 기반으로 여러 가지 검정 수행관심 집단의 위험률/비교 집단의 위험률위험률 : 특정 사건이 발생할 비율위험인자에 노출된 암환자의 확률/위험인자에 노출되지 않은 암환자의 확률분할표에서 상대위험도를 식으로 표현하면 아래와 같다.
두 변수의 각 범주를 교차하여 데이터의 관측도수(빈도)를 표 형태로 나타냄
교차분석은 교차표에서 각 셀의 관찰빈도(자료로부터 얻은 빈도분포)와 기대빈도(두 변수가 독립일 때 이론적으로 기대할 수 있는 빈도분포)간의 차이 검정범주형 자료(명목/서열)인 두 변수 간의 관계를 알아보기 위해 실시하는 분석 기법적합성 검정, 독립성 검정, 동질성 검정에 사용카이제곱(𝜒^2)으로 검정 통계량을 이용적합성 검정관측값들이 예상한 이론과 일치하는지 아닌지를 검정관측값들이 어떠한 이론적 분포를 따르고 있는지를 알아볼 수 있음.모집단 분포에 대한 가정이 옳게 됐는지를 관측 자료와 비교하여 검정독립성 검정모집단이 두 개의 변수 A, B에 의해 범주화되었을 때, 이 두 변수들 사이의 관계가 독립인지 아닌지 검정모집단을 범주화하는 기준이 되는 두 변수 A, B가 서로 독립적으로 관측값에 영향을 미치는지 여부 검정검정 통계량 값을 계산시 교차표 활용동질성 검정모집단이 임의의 변수에 따라 R개의 속성으로 범주화 되었을 때, R개의 부분 모집단에서 추출한 각 표본인 C개의 범주화된 집단의 분포가 서로 동일한지를 검정검정 통계량 값을 계산할 때는 교차표 활용계산법, 검증법은 모두 독립성 검정과 같은 방법
회귀분석의 주요한 가정 중 오차항이 독립성을 만족(독립성)하는지 검정하기 위해서 사용더빈 왓슨 통계량이 2에 가까울 수록 오차항의 자기상관이 없음더빈 왓슨 통계량이 0에 가까울수록 양의 상관관계더빈 왓슨 통계량이 4에 가까울수록 음의 상관관계더빈 왓슨 통계량이 0혹은 4에 가까울 수록 잔차들 간의 상관관계가 있어서 회귀식 부적합선형회귀 계수에 대한 제약 조건을 추가하여 모델이 과도하게 최적화되는 현상(과적합, Overfitting)을 막는 방법학습 데이터를 매우 잘 적합하고 있으나, 미래 데이터가 조금만 바뀌어도 예측값이 과도하게 변함
정규화를 수행하여 학습데이터에 대한 설명력은 조금 포기하는 대신 미래 데이터의 변화에 대해 상대적으로 안정된 결과
모형이 과적합되면 계수의 크기도 과도하게 증가정규화 선형회귀에서는 계수의 크기를 제한하는 방법으로 제약조건 추가정규화 선형회귀에서는 제약조건의 종류에 따라 Ridge회귀, Lasso회귀, ElasticNet회귀가 사용됨가중치들의 제곱합(Squared Sum of Weights)을 최소화하는 것을 제약조건능형 회귀모형이라고도 함
가중치의 모든 원소가 0에 가까워지는 것을 원함규제 방식을 L2 규제(Penalty)𝜆 : 기존의 잔차 제곱합과 추가적인 제약조건의 비중을 조절하기 위한 초매개변수(Hyper Parameter)𝜆가 커짐 : 가중치의 값들이 작아지며, 정규화 정도가 커짐𝜆가 작아짐 : 정규화 정도가 작아짐𝜆=0 : 일반적인 선형회귀모형라쏘(Least Absoulte Shrinkage and Selection Operator, Lasso)회귀모형가중치 절대값의 합을 최소화하는 것을 제약조건절대값의 크기가 클 수록 penalty 부여릿지회귀에서는 가중치가 0에 가까워질 뿐, 실제로 0이 되지는 않음라쏘회귀에서 중요하지 않은 가중치는 0이 될 수 있음
라쏘회귀에서 사용하는 규제 방식을 L1 규제(Penalty)릿지회귀+라쏘회귀
가중치 절댓값의 합과 제곱합을 동시에 제약조건으로 가지는 모형𝜆_1와 𝜆_2라는 두 개의 초매개변수 가짐영향력 진단 : 적합된 회귀모형의 안전성 평가자료에서 특정 관측치가 제외됨에 따라 분석 결과의 주요 부분에 많은 변동=>안전성 약함영향점 : 선형회귀분석에서 회귀직선의 기울기에 영향을 크게 주는 점영향력 진단의 방법 : Leverage H, Cook's Distance, DFBETAS, DFFITS 등레버리지 : 𝐻=𝑋(𝑋^𝑇 𝑋)^(−1) 𝑋^𝑇(Hat Matrix)의 i번째 대각원소로 관측치가 다른 관측치 집단으로부터 떨어진 정도2 x (p+1)/n보다 크면 영향치이거나 이상치
Full Model에서 i번째 관측치를 포함하여 계산한 적합치와 i번째 관측치를 포함하지 않고 계산한 적합치 사이의 거리기준값인 1보다 클 경우에 영향치
DFBETAS의 절대값이 커지면 i번째 관측치가 영향치 혹은 이상치기준값은 2나 2/√n(표본을 고려한 경우) 사용DFBETAS값이 기준값보다 클 경우 영향치
i번째 관측치 제외시 종속변수 예측치의 변화정도를 측정한 값DFFITS의 절대값이 기준값인 2x(p+1)/n보다 클수록 영향치
설명변수(x)의 개수가 증가하면 결정계수도 함께 증가수정된 결정계수를 이용해 단점 보완, 변수 선택수정된 결정계수 : 변수의 개수가 증가함에 따라 처음에는 감소하다가 점점 안정화되고 나중에는 약간 증가하는 경향
수정된 결정계수를 이용하여 변수 선택시 MSE값이 최소인 시점의 모형을 선택하거나 이 값의 최소와 비슷해서 더 이상 변수를 추가할 필요가 없는 시점의 모형 선택*모수 절약의 원칙(Principle of Parsimony)
: 회귀모형을 구축할 때 가능한 작은 수의 독립변수를 이용해야 하는 통계학의 원칙 -> 모형의 간명성
Mallow가 제안한 통계량Cp값은 최소자승법(최소제곱법)을 사용해 추정된 회귀모형의 적합성을 평가하는데 사용
Cp값이 작고, p+상수(변수의 개수+상수)에 가까운 모형 선택| Cp값 | 해석 |
|---|---|
| Cp값이 p(변수의 개수)와 비슷한 경우 | Bias(편향)이 작고 우수한 모델 |
| Cp값이 p보다 큰 경우 | Bias가 크고 추가적인 변수가 필요한 모델 |
| Cp값이 p보다 작은 경우 | Variance(분산)의 증가폭보다 Bias의 감소폭이 더 크며, 필요 없는 변수가 모델에 있다는 것을 의미 |
시스템이나 프로세스의 결과에 영향을 미치는 인자를 도출하고, 측정 데이터를 통계적으로 분석하기 위한 실험을 설계하는 방법실험 방식, 데이터 수집 방법, 활용 통계 기법 등 실험의 모든 과정 설계최소 실험 횟수로 최대의 정보를 얻는 것을 목적분산분석 및 검정과 추정의 문제 : 어떠한 요인이 특성치 변화에 유의미한 영향을 주는지, 또한 해당 요인의 영향이 어느 정도인지 파악최적 반응 조건의 결정 문제 : 어떤 인자를 사용해야 가장 원하는 결과값을 얻을 수 있는지를 파악오차항 추정의 문제 : 이해하기 어렵던 오차와 그 변동에 관한 정도 파악랜덤화의 원리(Randomization)실험 순서를 무작위로 선택반복의 원리(Replication)인자의 동일 수준 내에서 최소 두 번 이상 실험 진행블록화의 원리(Blocking)실험 전체를 시간적/공간적으로 분할하여 블록으로 만듦직교화의 원리(Orthogonality)요인간 직교성을 갖도록 실험을 계획교락의 원리(Confounding)고차항의 교호효과와 블록효과를 교락시키는 방법*교호효과 : 한 요인의 효과가 다른 요인의 수준에 의존하는 경우
*교락 : 실험 수를 줄이는 대신 얻을 수 있는 정보는 좀 손해를 봄
인자(Factor) : 실제 실험대상. 입력변수 X특성치(Characteristic Value) : 실험의 모든 결과값. 출력변수 Y수준(Level) : 실험하기 위한 인자의 조건. 인자의 정도나 값주효과(Main Effect) : 각 입력변수의 수준 간 차이.인자가 독립적으로 반응에 미치는 영향교호효과(Interaction Effect) : 특정한 인자 수준의 조합에서 일어나는 효과.인자들이 혼합되어 반응에 미치는 영향교락(Confounding) : 2개 이상의 효과(주효과 or 교호효과)를 구별할 수 없도록 계획적으로 조합하는 것블록(Block) : 실험 단위가 균일할 수 있도록 단위를 모은 것반복(Replication) : 인자들의 동일한 수준 조합에서 다회의 실험을 진행중복(Repetition) : 한 실험에서 여러 개의 대상을 측정요인배치법(Factorial Design)
모든 인자간의 수준 조합에서 실험이 이루어지는 완전랜덤화방법교호효과를 포함한 모든 요인효과를 추정가능K^n형 요인실험 : 인자 수가 n, 각 인자의 수준 수가 k인 실험계획법분할법(Split-Plot Design)
완전랜덤화하기 힘들 경우, 몇 단계로 분할하여 각 단계별로 완전 랜덤하게 실험 순서를 결정랜덤화가 가장 어려운 것을 1차 단위로, 비교적 쉬운 것을 후 단위로 배치교락법(Confounding Method)
교호작용을 다른 요인과 교락하도록 배치실험 횟수를 늘리지 않고 실험 전체를 몇 개의 블록으로 나누어 배치동일 환경에서의 실험 횟수를 줄일 수 있음고차의 교호작용을 블록에 교락시키기 때문에 주효과가 높게 추정난괴법(Randomized Block Design, RBD, 랜덤화 블록 실험설계)
실험 단위를 몇 개의 반복으로 나누어 배치A가 모수인자이고, B가 변량인자일 때, A인자의 수준 수가 1이고, B인자의 수준 수가 m인 반복이 없는 이원배치 분산분석방법실험 오차를 줄일 수 있기 때문에 효율이 높고 비교적 분석이 간단*모수인자 : 인자의 수준을 지정하는 것이 기술적으로 의미 O
*변량인자 : 인자의 수준을 지정하는 것이 기술적으로 의미 X