[ADsP] 통계 심화

당당·2023년 7월 21일
0

ADsP

목록 보기
11/13
post-thumbnail

📔설명

통계를 좀 더 깊숙히 파고들어보자!


🧂확률변수

이산형 확률변수

  • 이산점(Discrete Points)에서 0이 아닌 확률값을 가지는 확률변수
  • 이산형 확률변수확률
  • 확률질량함수(Probability Mass Function, PMF)
    : 각 이산점에 있어서 확률의 크기를 표현하는 함수
  • ex) 두 개의 주사위를 던지는 실험에서 확률변수 X'X=두 주사위 눈금의 합'이라고 정의한다면 X이산형 확률분포는 아래와 같음
  • 이산형 확률변수확률조건

연속형 확률변수

  • 특정 실수 구간에서 0이 아닌 확률을 갖는 확률변수
  • 특정한 실수구간 내에서 0이 아닌 확률을 가지므로 이 구간에 대한 확률함수의 형태로 표현
  • 확률밀도함수(Probability Density Function, PDF)
    : 연속형 확률변수 X확률함수f(x)라고 할 때, f(x)
  • 연속형 확률변수확률조건
  • ex) 확률변수 X0과 1사이에서 균등한 분포를 가진다면 X의 확률밀도함수

누적 분포 함수(Cumulatvie Distribution Function, CDF)

  • 특정 값 a에 대하여 확률변수 XX<=a모든 경우의 확률

  • 이산형 확률변수의 Fx(a)

  • 연속형 확률변수의 Fx(a)

  • 누적분포함수증가함수이고, 우측연속함수이며 0과 1사이 값을 가짐

  • 확률분포와의 관계
    : 확률변수누적분포함수는 그 확률분포유일하게 결정
    구간(a,b]에 대한 X의 확률Pr(a<x<=b)=Fx(b)-Fx(a)



✨구간추정

모평균과 모분산에 따른 구간추정


두 모평균 차이의 신뢰구간 추정(독립표본)

  • 두 집단서로 독립이라는 전제조건 하에 두 모평균 차이에 대한 추정


두 모평균 차이의 신뢰구간 추정(대응표본)

  • 투약 전후이벤트 성과 비교와 같이 을 이루는 각 쌍에 대한 표본을 대상으로 모평균의 차이 𝜇_1−𝜇_2에 대한 추정에는 대응 표본(Pairwise Sample) 사용


🎢중심극한정리(Central Limit Theorem)

  • 중심극한정리(Central Limit Theorem, CLT)

  • 자료가 관찰된 모집단의 분포가 실제로 정규분포가 아닌 경우에도 중심극한정리에 의하여 정규분포를 이용한 추정량의 근사확률을 구할 수 있음



🎀가설검정

대립가설 H1과 기각역 C

  • 검정통계량의 분포에서 유의수준 α에 의해 기각역 C의 크기가 결정
  • 기각역의 위치대립가설 H1형태에 의해 분포의 양쪽 끝(양측검정) 또는 한 쪽 끝(단측검정)으로 나뉨
  • 오른쪽 끝에 위치 : 오른쪽 단측검정
  • 왼쪽 끝으로 위치 : 왼쪽 단측검정
  • 귀무가설 H0"모수가 특정값(μ0)이다"라고 할 때 대립가설 H1

가설검정 단계

가설검정 단계

  1. 검정하고자 하는 목적에 따라서 귀무가설(H0)대립가설(H1)을 설정
  2. 검정통계량 T(X)를 구하고 그 분포를 구함
  3. 유의수준 α를 결정하고 검정통계량 T(X)의 분포에서 대립가설의 형태에 따라 유의수준 α에 해당하는 기각역C 설정
  4. 귀무가설(H0)옳다는 전제 하에서 표본관찰에 의한 검정통계량 T(X)의 값을 구함
  5. T(X)의 값이 기각역 C에 속하는가를 판단하여, 기각역에 속하면 귀무가설(H0)을 기각하고 기각역에 속하지 않으면 귀무가설(H0)채택

*신뢰구간과 양측검정과의 관계

  • 유의수준α양측 검정에서의 귀무가설의 특정값(μ0)(1-α)x100% 신뢰구간 내에 포함된다면, 귀무가설(H0) 채택
  • ex) 95% 신뢰구간[49.50, 51.5]라고 가정,
    해당 신뢰구간50을 포함하므로 유의수준 5%에서 대립가설(H1) "모평균이 50이 아니다.(μ!=50)(즉,μ0=50)"채택


🍭상관계수

피어슨-스피어만 상관계수의 관계

  • 서열상관계수는 집단 내의 개별 관측치두 개의 서로 다른 관점이나 특성으로 평가순위값들을 이용해서 분석하는 경우에 사용
  • 단조함수(Monotonic Function)
    : 두 변수순위 사이의존성을 측정하는 비모수 척도
    -> 두 변수의 관계가 얼마나 잘 설명될 수 있는지 판단
    -> 순서관계 <=보존하거나 반전시키는 함수
    -> x<=y이면 f(x)<=f(y), x<=y 이면 f(x)>=f(y)
  • 스피어만 상관계수는 두 변수 사이의 선형 관계를 평가하는 피어슨 상관계수와 달리, 선형 여부와 관계없이 두 변수가 단조적 관계가 있는지를 평가
  • 중복 데이터가 없다는 가정하에 각 변수가 다른 변수완벽한 단조 함수일 때 +1또는 -1관계 발생
  • 두 변수 간의 스피어만 상관 계수 = 두 변수의 순위 값 사이의 피어슨 상관계수
  • 두 변수 사이의 선형관계(피어슨) vs 두 변수 사이의 단조적 관계(선형X)(스피어만)


🍱통계 분석 방법론

  • 모집단모수에 대해 추정을 한 후에는 모집단에 대해 어떤 가설(Hypothesis)을 설정한 후 그 가설의 타당성 여부 검정
  • 한 집단, 두 집단, 독립적인 집단평균부터 분산 검정 등에 대한 통계 분석 방법론을 알아보자.

단일 모수의 가설검정 단계


두 모수의 가설검정 단계



🥂분산분석(Analysis of Variance, ANOVA)

  • t-검정 : 두 집단 간의 평균 차이 비교하는 통계분석 방법
  • 분산분석 : 두 개 이상다수 집단평균을 비교하는 통계분석 방법
  • 독립변수(x)의 개수에 따라 일원배치 분산분석, 이원배치 분산분석, 다원배치 분산분석으로 나뉨

일원배치 분산분석(One-Way ANOVA)

분산분석개념

  • 두 개 이상의 집단에서 그룹 평균 간 차이그룹 내 변동에 비교하여 살펴보는 통계 분석 방법
  • 두 개 이상 집단들의 평균 간 차이에 대한 통계적 유의성검증(두 개 이상의 집단들의 평균을 비교)하는 방법

일원배치 분산분석개념

  • 분산분석에서 반응값에 대한 하나의 범주형 변수영향을 알아보기 위해 사용되는 검증 방법
  • 모집단의 수 : 제한X
  • 각 표본의 수 : 같지 않아도 됨
  • F-통계량(분산) 이용
  • ex) 각 집단의 표본의 수동일한 경우
    (Yiji번째 집단j번째 관측값)

일원배치 분산분석가정

  • 각 집단의 측정치서로 독립적이며, 정규분포를 따름
  • 각 집단 측정치분산같다(등분산 가정)

분산분석표


가설 검정

  • 귀무가설(H0) : k개의 집단 간 모평균에는 차이가 없다.(μ_1=μ_2=...=μ_k)
  • 대립가설(H1) : k개의 집단 간 모평균모두 같다고 할 수 없다.
    (H0 is not true)

사후 검정

  • 분산분석의 결과 귀무가설이 기각되어, 적어도 한 집단에서 평균의 차이가 있음통계적으로 증명되었을 경우, 어떤 집단들에 대해평균의 차이가 존재하는지를 알아보기 위해 실시하는 분석
  • 종류
    • 던칸(Duncan)의 MRT(Multiple Range Test)
    • 피셔(Fisher)의 최소유의차(LSD)
    • 튜키(Tukey)의 HSD방법
    • Scheffe의 방법


🌵범주형 자료 분석

  • 분석에 사용되는 변수들이 범주형일 때 사용하는 분석 방법론
  • 설명변수(x)반응변수(y)에 따른 범주형 자료 분석 방법론 분류


🪐분할표/교차표(Contingency Table) 분석

  • 여러 개범주형 변수를 기준으로 빈도 형태로 나타낸 것
  • ex) 2개의 범주형 변수(학년, 성적 등급)빈도
  • 범주형 변수1개 : 1원 분할표
  • 범주형 변수2개 : 2원 분할표
  • 범주형 변수3개 이상 : 다원 분할표
  • 분할표의 행 : 설명변수(x)
  • 분할표의 열 : 반응변수(y)
  • 범주형 자료를 분석시 분할표를 기반으로 여러 가지 검정 수행

상대위험도(Relative Risk)

  • 관심 집단의 위험률/비교 집단의 위험률
  • 위험률 : 특정 사건발생할 비율
  • ex) 위험인자에 노출된 암환자의 확률/위험인자에 노출되지 않은 암환자의 확률
  • 아래의 분할표에서 상대위험도를 식으로 표현하면 아래와 같다.


🚲교차분석

교차표

  • 두 변수각 범주교차하여 데이터의 관측도수(빈도)를 표 형태로 나타냄
  • 교차분석교차표에서 각 셀의 관찰빈도(자료로부터 얻은 빈도분포)와 기대빈도(두 변수가 독립일 때 이론적으로 기대할 수 있는 빈도분포)간의 차이 검정

카이제곱검정

  • 범주형 자료(명목/서열)두 변수 간의 관계를 알아보기 위해 실시하는 분석 기법
  • 적합성 검정, 독립성 검정, 동질성 검정에 사용
  • 카이제곱(𝜒^2)으로 검정 통계량을 이용

  1. 적합성 검정
  • 실험에서 얻어진 관측값들이 예상한 이론일치하는지 아닌지를 검정
  • 관측값들이 어떠한 이론적 분포를 따르고 있는지를 알아볼 수 있음.
    -> 모집단 분포에 대한 가정옳게 됐는지관측 자료와 비교하여 검정

  1. 독립성 검정
  • 모집단두 개의 변수 A, B에 의해 범주화되었을 때, 이 두 변수들 사이의 관계독립인지 아닌지 검정
  • 모집단범주화하는 기준이 되는 두 변수 A, B서로 독립적으로 관측값에 영향을 미치는지 여부 검정
  • 검정 통계량 값을 계산시 교차표 활용

  1. 동질성 검정
  • 모집단임의의 변수에 따라 R개의 속성으로 범주화 되었을 때, R개부분 모집단에서 추출한 각 표본C개의 범주화된 집단의 분포가 서로 동일한지를 검정
  • 검정 통계량 값을 계산할 때는 교차표 활용
  • 계산법, 검증법은 모두 독립성 검정과 같은 방법


👨🏻더빈 왓슨(Durbin-Watson) 검정

  • 회귀분석의 주요한 가정 중 오차항독립성을 만족(독립성)하는지 검정하기 위해서 사용
  • 검정 결과 더빈 왓슨 통계량2에 가까울 수록 오차항의 자기상관이 없음
  • 더빈 왓슨 통계량0에 가까울수록 양의 상관관계
  • 더빈 왓슨 통계량4에 가까울수록 음의 상관관계
  • 즉 ,더빈 왓슨 통계량0혹은 4에 가까울 수록 잔차들 간의 상관관계가 있어서 회귀식 부적합


🧀정규화 선형회귀(Regularized Linear Regression)

  • 선형회귀 계수에 대한 제약 조건을 추가하여 모델이 과도하게 최적화되는 현상(과적합, Overfitting)을 막는 방법
  • 아래 그래프는 모델이 학습 데이터를 매우 잘 적합하고 있으나, 미래 데이터조금만 바뀌어도 예측값과도하게 변함

  • 아래 그래프는 정규화를 수행하여 학습데이터에 대한 설명력은 조금 포기하는 대신 미래 데이터의 변화에 대해 상대적으로 안정된 결과

  • 모형과적합되면 계수의 크기도 과도하게 증가
    -> 정규화 선형회귀에서는 계수의 크기제한하는 방법으로 제약조건 추가
  • 정규화 선형회귀에서는 제약조건종류에 따라 Ridge회귀, Lasso회귀, ElasticNet회귀가 사용됨

릿지(Ridge)회귀

  • 가중치들의 제곱합(Squared Sum of Weights)최소화하는 것을 제약조건
  • 능형 회귀모형이라고도 함

  • 가중치모든 원소0에 가까워지는 것을 원함
    -> 이를 위해 회귀 모델에 사용하는 규제 방식L2 규제(Penalty)
  • 𝜆 : 기존의 잔차 제곱합과 추가적인 제약조건의 비중조절하기 위한 초매개변수(Hyper Parameter)
  • 𝜆가 커짐 : 가중치의 값들이 작아지며, 정규화 정도가 커짐
  • 𝜆가 작아짐 : 정규화 정도가 작아짐
  • 𝜆=0 : 일반적인 선형회귀모형

라쏘(Lasso)회귀

  • 라쏘(Least Absoulte Shrinkage and Selection Operator, Lasso)회귀모형
    : 가중치 절대값최소화하는 것을 제약조건
  • 절대값의 크기가 클 수록 penalty 부여
  • 릿지회귀에서는 가중치0에 가까워질 뿐, 실제로 0이 되지는 않음
  • 라쏘회귀에서 중요하지 않은 가중치0이 될 수 있음

  • 라쏘회귀에서 사용하는 규제 방식L1 규제(Penalty)

엘라스틱넷(Elastic Net)

  • 릿지회귀+라쏘회귀

  • 가중치 절댓값의 합제곱합을 동시에 제약조건으로 가지는 모형
  • 𝜆_1𝜆_2라는 두 개의 초매개변수 가짐


🍮회귀분석의 영향력 진단

  • 영향력 진단 : 적합된 회귀모형안전성 평가
  • 자료에서 특정 관측치제외됨에 따라 분석 결과의 주요 부분에 많은 변동=>안전성 약함
  • 영향점 : 선형회귀분석에서 회귀직선의 기울기영향을 크게 주는 점
  • 영향력 진단의 방법 : Leverage H, Cook's Distance, DFBETAS, DFFITS

Leverage H(지레점, 레버리지)

  • 레버리지 : 𝐻=𝑋(𝑋^𝑇 𝑋)^(−1) 𝑋^𝑇(Hat Matrix)i번째 대각원소관측치다른 관측치 집단으로부터 떨어진 정도
  • 2 x (p+1)/n보다 크면 영향치이거나 이상치


Cook's Distance(쿡의 거리)

  • Full Model에서 i번째 관측치를 포함하여 계산한 적합치i번째 관측치를 포함하지 않고 계산한 적합치 사이의 거리
  • 기준값1보다 클 경우영향치


DFBETAS(Difference in Betas)

  • DFBETAS절대값커지면 i번째 관측치영향치 혹은 이상치
  • 기준값22/√n(표본을 고려한 경우) 사용
  • DFBETAS값기준값보다 클 경우 영향치


DFFITS(Difference in Fits)

  • i번째 관측치 제외시 종속변수 예측치변화정도를 측정한 값
  • DFFITS절대값기준값2x(p+1)/n보다 수록 영향치



🥛변수 선택의 기준으로 사용되는 통계량

수정된 결정계수(Adjusted R Square, R^2_a)

  • 설명변수(x)의 개수가 증가하면 결정계수도 함께 증가
    -> 수정된 결정계수를 이용해 단점 보완, 변수 선택
  • 수정된 결정계수 : 변수의 개수증가함에 따라 처음에는 감소하다가 점점 안정화되고 나중에는 약간 증가하는 경향

  • 수정된 결정계수를 이용하여 변수 선택MSE값최소인 시점의 모형을 선택하거나 이 값의 최소와 비슷해서 더 이상 변수를 추가할 필요가 없는 시점의 모형 선택

*모수 절약의 원칙(Principle of Parsimony)
: 회귀모형을 구축할 때 가능한 작은 수독립변수를 이용해야 하는 통계학의 원칙 -> 모형의 간명성


Mallows'Cp

  • Mallow가 제안한 통계량
  • Cp값최소자승법(최소제곱법)을 사용해 추정된 회귀모형적합성을 평가하는데 사용

  • Cp값작고, p+상수(변수의 개수+상수)가까운 모형 선택
Cp값해석
Cp값이 p(변수의 개수)와 비슷한 경우Bias(편향)이 작고 우수한 모델
Cp값이 p보다 큰 경우Bias가 크고 추가적인 변수가 필요한 모델
Cp값이 p보다 작은 경우Variance(분산)의 증가폭보다 Bias의 감소폭이 더 크며, 필요 없는 변수가 모델에 있다는 것을 의미


🧪실험계획법(Design Of Experiment, DOE)

실험 계획법의 개념

  • 시스템이나 프로세스결과영향을 미치는 인자를 도출하고, 측정 데이터통계적으로 분석하기 위한 실험을 설계하는 방법
  • 실험 방식, 데이터 수집 방법, 활용 통계 기법 등 실험의 모든 과정 설계
  • 최소 실험 횟수최대의 정보를 얻는 것을 목적

계획 설계의 목적

  • 분산분석검정추정의 문제 : 어떠한 요인특성치 변화유의미한 영향을 주는지, 또한 해당 요인영향어느 정도인지 파악
  • 최적 반응 조건결정 문제 : 어떤 인자를 사용해야 가장 원하는 결과값을 얻을 수 있는지를 파악
  • 오차항 추정의 문제 : 이해하기 어렵던 오차와 그 변동에 관한 정도 파악

실험계획 원리

  • 랜덤화의 원리(Randomization)
    : 실험 순서무작위로 선택
  • 반복의 원리(Replication)
    : 인자의 동일 수준 내에서 최소 두 번 이상 실험 진행
  • 블록화의 원리(Blocking)
    : 실험 전체시간적/공간적으로 분할하여 블록으로 만듦
  • 직교화의 원리(Orthogonality)
    : 요인직교성을 갖도록 실험을 계획
  • 교락의 원리(Confounding)
    : 고차항교호효과블록효과교락시키는 방법

*교호효과 : 한 요인의 효과다른 요인수준의존하는 경우
*교락 : 실험 수줄이는 대신 얻을 수 있는 정보는 좀 손해를 봄


주요 용어

  • 인자(Factor) : 실제 실험대상. 입력변수 X
  • 특성치(Characteristic Value) : 실험의 모든 결과값. 출력변수 Y
  • 수준(Level) : 실험하기 위한 인자의 조건. 인자의 정도
  • 주효과(Main Effect) : 각 입력변수수준 간 차이.
    인자독립적으로 반응에 미치는 영향
  • 교호효과(Interaction Effect) : 특정한 인자 수준조합에서 일어나는 효과.
    인자들이 혼합되어 반응에 미치는 영향
  • 교락(Confounding) : 2개 이상의 효과(주효과 or 교호효과)구별할 수 없도록 계획적으로 조합하는 것
  • 블록(Block) : 실험 단위균일할 수 있도록 단위를 모은 것
  • 반복(Replication) : 인자들의 동일한 수준 조합에서 다회의 실험을 진행
  • 중복(Repetition) : 한 실험에서 여러 개의 대상을 측정

실험 계획법의 종류

요인배치법(Factorial Design)

  • 모든 인자간의 수준 조합에서 실험이 이루어지는 완전랜덤화방법
  • 교호효과를 포함한 모든 요인효과추정가능
  • K^n형 요인실험 : 인자 수n, 각 인자의 수준 수k실험계획법

분할법(Split-Plot Design)

  • 완전랜덤화하기 힘들 경우, 몇 단계로 분할하여 각 단계별완전 랜덤하게 실험 순서를 결정
  • 랜덤화가 가장 어려운 것1차 단위로, 비교적 쉬운 것후 단위로 배치

교락법(Confounding Method)

  • 검출할 필요가 없는 교호작용다른 요인교락하도록 배치
  • 실험 횟수를 늘리지 않고 실험 전체를 몇 개의 블록으로 나누어 배치
  • 동일 환경에서의 실험 횟수줄일 수 있음
  • 고차의 교호작용블록에 교락시키기 때문에 주효과높게 추정

난괴법(Randomized Block Design, RBD, 랜덤화 블록 실험설계)

  • 실험 단위를 몇 개의 반복으로 나누어 배치
  • A모수인자이고, B변량인자일 때, A인자의 수준 수1이고, B인자의 수준 수m반복이 없는 이원배치 분산분석방법
  • 실험 오차줄일 수 있기 때문에 효율이 높고 비교적 분석간단

*모수인자 : 인자의 수준을 지정하는 것이 기술적으로 의미 O
*변량인자 : 인자의 수준을 지정하는 것이 기술적으로 의미 X

profile
MySQL DBA 신입

0개의 댓글