통계를 좀 더 깊숙히 파고들어보자!
이산점(Discrete Points)
에서 0이 아닌 확률값
을 가지는 확률변수
이산형 확률변수
의 확률
확률질량함수(Probability Mass Function, PMF)
이산점
에 있어서 확률의 크기
를 표현하는 함수두 개의 주사위
를 던지는 실험에서 확률변수 X
를 'X=두 주사위 눈금의 합'
이라고 정의한다면 X
의 이산형 확률분포
는 아래와 같음이산형 확률변수
의 확률조건
특정 실수 구간
에서 0이 아닌 확률
을 갖는 확률변수
특정한 실수구간
내에서 0이 아닌 확률
을 가지므로 이 구간
에 대한 확률
은 함수의 형태로 표현
확률밀도함수(Probability Density Function, PDF)
연속형 확률변수 X
의 확률함수
를 f(x)
라고 할 때, f(x)
연속형 확률변수
의 확률조건
확률변수 X
가 0과 1
사이에서 균등한 분포
를 가진다면 X의 확률밀도함수
특정 값 a
에 대하여 확률변수 X
가 X<=a
인 모든 경우의 확률
의 합
이산형 확률변수의 Fx(a)
연속형 확률변수의 Fx(a)
누적분포함수
는 증가함수
이고, 우측연속함수
이며 0과 1사이 값
을 가짐
확률분포
와의 관계
: 확률변수
의 누적분포함수
는 그 확률분포
를 유일
하게 결정
구간(a,b]
에 대한 X의 확률
은 Pr(a<x<=b)=Fx(b)-Fx(a)
두 집단
이 서로 독립
이라는 전제조건 하에 두 모평균 차이
에 대한 추정투약 전후
나 이벤트 성과 비교
와 같이 짝
을 이루는 각 쌍에 대한 표본
을 대상으로 모평균의 차이 𝜇_1−𝜇_2
에 대한 추정에는 대응 표본(Pairwise Sample)
사용중심극한정리
(Central Limit Theorem, CLT)
자료가 관찰된 모집단의 분포
가 실제로 정규분포가 아닌
경우에도 중심극한정리
에 의하여 정규분포
를 이용한 추정량의 근사확률
을 구할 수 있음
검정통계량
의 분포에서 유의수준 α
에 의해 기각역 C
의 크기가 결정
기각역의 위치
는 대립가설 H1
의 형태
에 의해 분포의 양쪽 끝(양측검정)
또는 한 쪽 끝(단측검정)
으로 나뉨오른쪽 끝에 위치
: 오른쪽 단측검정
왼쪽 끝으로 위치
: 왼쪽 단측검정
귀무가설 H0
가 "모수가 특정값(μ0)이다"
라고 할 때 대립가설 H1
가설검정 단계
검정
하고자 하는 목적
에 따라서 귀무가설(H0)
과 대립가설(H1)
을 설정검정통계량 T(X)
를 구하고 그 분포
를 구함유의수준 α
를 결정하고 검정통계량 T(X)의 분포
에서 대립가설
의 형태에 따라 유의수준 α
에 해당하는 기각역C
설정귀무가설(H0)
이 옳다
는 전제 하에서 표본관찰
에 의한 검정통계량 T(X)
의 값을 구함T(X)
의 값이 기각역 C에 속하는가
를 판단하여, 기각역에 속하면
귀무가설(H0)을 기각
하고 기각역에 속하지 않으면
귀무가설(H0)
을 채택
*신뢰구간과 양측검정과의 관계
유의수준
이 α
인 양측 검정
에서의 귀무가설의 특정값(μ0)
이 (1-α)x100% 신뢰구간
내에 포함된다면, 귀무가설(H0) 채택
95% 신뢰구간
이 [49.50, 51.5]
라고 가정,신뢰구간
이 50
을 포함하므로 유의수준 5%
에서 대립가설(H1)
"모평균이 50이 아니다.(μ!=50)(즉,μ0=50)"
를 채택
서열상관계수
는 집단 내의 개별 관측치
를 두 개
의 서로 다른 관점
이나 특성
으로 평가
한 순위값
들을 이용해서 분석하는 경우에 사용단조함수(Monotonic Function)
두 변수
의 순위 사이
의 의존성
을 측정하는 비모수 척도
두 변수의 관계
가 얼마나 잘 설명
될 수 있는지 판단순서관계 <=
를 보존
하거나 반전
시키는 함수x<=y이면 f(x)<=f(y)
, x<=y 이면 f(x)>=f(y)
스피어만 상관계수
는 두 변수 사이의 선형 관계를 평가
하는 피어슨 상관계수
와 달리, 선형 여부와 관계없이
두 변수가 단조적 관계가 있는지
를 평가중복 데이터가 없다
는 가정하에 각 변수가 다른 변수
의 완벽한 단조 함수
일 때 +1또는 -1
의 관계
발생스피어만 상관 계수
= 두 변수의 순위 값 사이의 피어슨 상관계수
선형관계(피어슨)
vs 두 변수 사이의 단조적 관계(선형X)(스피어만)
모집단
의 모수
에 대해 추정
을 한 후에는 모집단
에 대해 어떤 가설(Hypothesis)
을 설정한 후 그 가설의 타당성 여부
검정
한 집단
, 두 집단
, 독립적인 집단
의 평균
부터 분산
검정 등에 대한 통계 분석 방법론
을 알아보자.t-검정
: 두 집단
간의 평균 차이
비교하는 통계분석 방법분산분석
: 두 개 이상
의 다수 집단
간 평균
을 비교하는 통계분석 방법독립변수(x)의 개수
에 따라 일원배치 분산분석
, 이원배치 분산분석
, 다원배치 분산분석
으로 나뉨분산분석
의 개념
두 개 이상
의 집단에서 그룹 평균 간 차이
를 그룹 내 변동
에 비교하여 살펴보는 통계 분석 방법두 개 이상 집단
들의 평균 간 차이
에 대한 통계적 유의성
을 검증
(두 개 이상의 집단들의 평균을 비교
)하는 방법일원배치 분산분석
의 개념
분산분석
에서 반응값
에 대한 하나의 범주형 변수
의 영향
을 알아보기 위해 사용되는 검증 방법모집단의 수
: 제한X
각 표본의 수
: 같지 않아도 됨F-통계량(분산)
이용표본의 수
가 동일
한 경우Yij
는 i번째 집단
의 j번째 관측값
)일원배치 분산분석
의 가정
측정치
는 서로 독립적
이며, 정규분포
를 따름측정치
의 분산
은 같다
(등분산 가정
)분산분석표
가설 검정
귀무가설(H0)
: k개
의 집단 간 모평균
에는 차이가 없다.(μ_1=μ_2=...=μ_k)
대립가설(H1)
: k개
의 집단 간 모평균
이 모두 같다고 할 수 없다.
H0 is not true
)사후 검정
분산분석
의 결과 귀무가설이 기각
되어, 적어도 한 집단에서 평균의 차이가 있음
이 통계적으로 증명
되었을 경우, 어떤 집단들에 대해
서 평균의 차이가 존재
하는지를 알아보기
위해 실시하는 분석종류
던칸(Duncan)의 MRT(Multiple Range Test)
피셔(Fisher)의 최소유의차(LSD)
튜키(Tukey)의 HSD방법
Scheffe의 방법
범주형
일 때 사용하는 분석 방법론설명변수(x)
와 반응변수(y)
에 따른 범주형 자료 분석 방법론 분류
여러 개
의 범주형 변수
를 기준으로 빈도
를 표
형태로 나타낸 것2개의 범주형 변수(학년, 성적 등급)
별 빈도
범주형 변수
가 1개
: 1원 분할표
범주형 변수
가 2개
: 2원 분할표
범주형 변수
가 3개 이상
: 다원 분할표
분할표의 행
: 설명변수(x)
분할표의 열
: 반응변수(y)
범주형 자료
를 분석시 분할표
를 기반으로 여러 가지 검정 수행관심 집단의 위험률/비교 집단의 위험률
위험률
: 특정 사건
이 발생할 비율
위험인자에 노출된 암환자의 확률/위험인자에 노출되지 않은 암환자의 확률
분할표
에서 상대위험도
를 식으로 표현하면 아래와 같다.두 변수
의 각 범주
를 교차
하여 데이터의 관측도수
(빈도
)를 표 형태로 나타냄교차분석
은 교차표
에서 각 셀의 관찰빈도
(자료
로부터 얻은 빈도분포
)와 기대빈도
(두 변수가 독립
일 때 이론적으로 기대
할 수 있는 빈도분포
)간의 차이
검정범주형 자료(명목/서열)
인 두 변수
간의 관계
를 알아보기 위해 실시하는 분석 기법적합성 검정
, 독립성 검정
, 동질성 검정
에 사용카이제곱(𝜒^2)
으로 검정 통계량
을 이용적합성 검정
관측값
들이 예상한 이론
과 일치
하는지 아닌지
를 검정관측값
들이 어떠한 이론적 분포
를 따르고 있는지를 알아볼 수 있음.모집단 분포
에 대한 가정
이 옳게 됐는지
를 관측 자료와 비교
하여 검정독립성 검정
모집단
이 두 개의 변수 A, B
에 의해 범주화
되었을 때, 이 두 변수
들 사이의 관계
가 독립인지 아닌지
검정모집단
을 범주화
하는 기준이 되는 두 변수 A, B
가 서로 독립적
으로 관측값
에 영향을 미치는지 여부 검정검정 통계량 값
을 계산시 교차표
활용동질성 검정
모집단
이 임의의 변수
에 따라 R개의 속성
으로 범주화
되었을 때, R개
의 부분 모집단
에서 추출한 각 표본
인 C개의 범주화된 집단의 분포
가 서로 동일
한지를 검정검정 통계량 값
을 계산할 때는 교차표
활용계산법
, 검증법
은 모두 독립성 검정
과 같은 방법회귀분석
의 주요한 가정 중 오차항
이 독립성을 만족(독립성)
하는지 검정하기 위해서 사용더빈 왓슨 통계량
이 2
에 가까울 수록 오차항의 자기상관이 없음
더빈 왓슨 통계량
이 0
에 가까울수록 양의 상관관계
더빈 왓슨 통계량
이 4
에 가까울수록 음의 상관관계
더빈 왓슨 통계량
이 0혹은 4
에 가까울 수록 잔차들 간의 상관관계
가 있어서 회귀식 부적합
선형회귀 계수
에 대한 제약 조건
을 추가하여 모델이 과도하게 최적화되는 현상(과적합, Overfitting)
을 막는 방법학습 데이터
를 매우 잘 적합
하고 있으나, 미래 데이터
가 조금만 바뀌
어도 예측값
이 과도하게 변함
정규화
를 수행하여 학습데이터
에 대한 설명력
은 조금 포기
하는 대신 미래 데이터의 변화
에 대해 상대적으로 안정된 결과
모형
이 과적합
되면 계수의 크기
도 과도하게 증가
정규화 선형회귀
에서는 계수의 크기
를 제한
하는 방법으로 제약조건
추가정규화 선형회귀
에서는 제약조건
의 종류
에 따라 Ridge회귀
, Lasso회귀
, ElasticNet회귀
가 사용됨가중치들의 제곱합(Squared Sum of Weights)
을 최소화
하는 것을 제약조건
능형 회귀모형
이라고도 함가중치
의 모든 원소
가 0에 가까워지는 것
을 원함규제 방식
을 L2 규제(Penalty)
𝜆
: 기존의 잔차 제곱합
과 추가적인 제약조건의 비중
을 조절
하기 위한 초매개변수(Hyper Parameter)
𝜆가 커짐
: 가중치의 값
들이 작아
지며, 정규화 정도가 커짐
𝜆가 작아짐
: 정규화 정도가 작아짐
𝜆=0
: 일반적인 선형회귀모형
라쏘(Least Absoulte Shrinkage and Selection Operator, Lasso)회귀모형
가중치 절대값
의 합
을 최소화
하는 것을 제약조건절대값의 크기가 클 수록 penalty 부여
릿지회귀
에서는 가중치
가 0에 가까워
질 뿐, 실제로 0
이 되지는 않음라쏘회귀
에서 중요하지 않은 가중치
는 0이 될 수 있음
라쏘회귀
에서 사용하는 규제 방식
을 L1 규제(Penalty)
릿지회귀
+라쏘회귀
가중치 절댓값의 합
과 제곱합
을 동시에 제약조건
으로 가지는 모형𝜆_1
와 𝜆_2
라는 두 개의 초매개변수
가짐영향력 진단
: 적합된 회귀모형
의 안전성
평가자료
에서 특정 관측치
가 제외
됨에 따라 분석 결과
의 주요 부분에 많은 변동
=>안전성 약함
영향점
: 선형회귀분석
에서 회귀직선의 기울기
에 영향
을 크게 주는 점영향력 진단의 방법
: Leverage H
, Cook's Distance
, DFBETAS
, DFFITS
등레버리지
: 𝐻=𝑋(𝑋^𝑇 𝑋)^(−1) 𝑋^𝑇(Hat Matrix)
의 i
번째 대각원소
로 관측치
가 다른 관측치 집단
으로부터 떨어진 정도
2 x (p+1)/n
보다 크면
영향치
이거나 이상치
Full Model
에서 i번째 관측치를 포함
하여 계산한 적합치
와 i번째 관측치를 포함하지 않고
계산한 적합치 사이의 거리
기준값
인 1보다 클 경우
에 영향치
DFBETAS
의 절대값
이 커지면
i번째 관측치
가 영향치
혹은 이상치
기준값
은 2
나 2/√n(표본을 고려한 경우)
사용DFBETAS값
이 기준값
보다 클 경우
영향치
i
번째 관측치 제외시 종속변수 예측치
의 변화정도
를 측정한 값DFFITS
의 절대값
이 기준값
인 2x(p+1)/n
보다 클
수록 영향치
설명변수(x)
의 개수가 증가
하면 결정계수
도 함께 증가
수정된 결정계수
를 이용해 단점 보완, 변수 선택
수정된 결정계수
: 변수의 개수
가 증가
함에 따라 처음에는 감소
하다가 점점 안정화
되고 나중에는 약간 증가
하는 경향수정된 결정계수
를 이용하여 변수 선택
시 MSE값
이 최소인 시점
의 모형을 선택하거나 이 값의 최소
와 비슷해서 더 이상 변수를 추가할 필요가 없는 시점
의 모형 선택*모수 절약의 원칙(Principle of Parsimony)
: 회귀모형
을 구축할 때 가능한 작은 수
의 독립변수
를 이용해야 하는 통계학의 원칙 -> 모형의 간명성
Mallow
가 제안한 통계량Cp값
은 최소자승법(최소제곱법)
을 사용해 추정된 회귀모형
의 적합성
을 평가하는데 사용Cp값
이 작고
, p+상수(변수의 개수+상수)
에 가까운
모형 선택Cp값 | 해석 |
---|---|
Cp값이 p(변수의 개수)와 비슷한 경우 | Bias(편향)이 작고 우수한 모델 |
Cp값이 p보다 큰 경우 | Bias가 크고 추가적인 변수가 필요한 모델 |
Cp값이 p보다 작은 경우 | Variance(분산)의 증가폭보다 Bias의 감소폭이 더 크며, 필요 없는 변수가 모델에 있다는 것을 의미 |
시스템
이나 프로세스
의 결과
에 영향
을 미치는 인자
를 도출하고, 측정 데이터
를 통계적으로 분석
하기 위한 실험을 설계
하는 방법실험 방식
, 데이터 수집 방법
, 활용 통계 기법
등 실험의 모든 과정 설계최소 실험 횟수
로 최대의 정보
를 얻는 것을 목적분산분석
및 검정
과 추정의 문제
: 어떠한 요인
이 특성치 변화
에 유의미한 영향
을 주는지, 또한 해당 요인
의 영향
이 어느 정도
인지 파악최적 반응 조건
의 결정 문제
: 어떤 인자
를 사용해야 가장 원하는 결과값
을 얻을 수 있는지를 파악오차항 추정의 문제
: 이해하기 어렵던 오차
와 그 변동
에 관한 정도 파악랜덤화의 원리(Randomization)
실험 순서
를 무작위
로 선택반복의 원리(Replication)
인자의 동일
수준 내에서 최소 두 번 이상
실험 진행블록화의 원리(Blocking)
실험 전체
를 시간적/공간적
으로 분할
하여 블록으로 만듦직교화의 원리(Orthogonality)
요인
간 직교성
을 갖도록 실험을 계획교락의 원리(Confounding)
고차항
의 교호효과
와 블록효과
를 교락
시키는 방법*교호효과
: 한 요인의 효과
가 다른 요인
의 수준
에 의존
하는 경우
*교락
: 실험 수
를 줄이
는 대신 얻을 수 있는 정보는 좀 손해
를 봄
인자(Factor)
: 실제 실험대상
. 입력변수 X
특성치(Characteristic Value)
: 실험의 모든 결과값
. 출력변수 Y
수준(Level)
: 실험하기 위한 인자의 조건
. 인자의 정도
나 값
주효과(Main Effect)
: 각 입력변수
의 수준 간 차이
.인자
가 독립적
으로 반응
에 미치는 영향교호효과(Interaction Effect)
: 특정한 인자 수준
의 조합
에서 일어나는 효과.인자들이 혼합
되어 반응에 미치는 영향교락(Confounding)
: 2개 이상의 효과(주효과 or 교호효과)
를 구별할 수 없도록
계획적으로 조합
하는 것블록(Block)
: 실험 단위
가 균일
할 수 있도록 단위를 모은 것반복(Replication)
: 인자들의 동일한 수준 조합
에서 다회
의 실험을 진행중복(Repetition)
: 한 실험
에서 여러 개의 대상
을 측정요인배치법(Factorial Design)
모든 인자
간의 수준 조합
에서 실험이 이루어지는 완전랜덤화방법
교호효과
를 포함한 모든 요인효과
를 추정
가능K^n형 요인실험
: 인자 수
가 n
, 각 인자의 수준 수
가 k
인 실험계획법
분할법(Split-Plot Design)
완전랜덤화
하기 힘들 경우, 몇 단계로 분할
하여 각 단계별
로 완전 랜덤
하게 실험 순서
를 결정랜덤화가 가장 어려운 것
을 1차 단위
로, 비교적 쉬운 것
을 후 단위
로 배치교락법(Confounding Method)
교호작용
을 다른 요인
과 교락
하도록 배치
실험 횟수를 늘리지 않고
실험 전체를 몇 개의 블록
으로 나누어 배치
동일 환경
에서의 실험 횟수
를 줄일 수 있음
고차의 교호작용
을 블록에 교락
시키기 때문에 주효과
가 높게 추정
난괴법(Randomized Block Design, RBD, 랜덤화 블록 실험설계)
실험 단위
를 몇 개의 반복
으로 나누어 배치A
가 모수인자
이고, B
가 변량인자
일 때, A인자의 수준 수
가 1
이고, B인자의 수준 수
가 m
인 반복이 없는
이원배치 분산분석방법
실험 오차
를 줄일 수 있
기 때문에 효율이 높고
비교적 분석
이 간단
*모수인자
: 인자의 수준을 지정하는 것이 기술적으로 의미 O
*변량인자
: 인자의 수준을 지정하는 것이 기술적으로 의미 X