Classification
정확도 : Accuracy
: 전체적인 분류 성능, 실제 데이터 = 예측 데이터
: TP + TN / TP + FP + FN + TN
정밀도 : Precision
: Positive
라고 예측한 값 중 실제 Positive
: TP / TP + FP
재현율(민감도) : Recall
: 실제 Positive
중 Postive
라고 예측에 성공한 비율
: TP / TP + FN
F1-Score
: 정밀도 + 재현율의 조화평균 지표
: F1-Score
∝ 모형의 정확도
: 2 x Precision x recall / (Precision + recall)
ROC 곡선
: FPR
(FP / FP+TN
)의 변화에 따른 TPR
(TP / TP+FN
)의 변화
: 곡선 모양은 분류모델의 성능을 의미함, 곡률이 좌상단에 가까울 수록 성능 좋음
: 하단 면적 = AUC
AUC
: ROC 곡선의 하단 면적, 0~1
: AUC=1
= 성능 우수함
Regression
SSE
: 오차제곱합
: 실제값과 예측값의 차이를 제곱하여 더한 값
: ∑(실제값 - 예측값)^2
MSE
: 평균제곱오차
: SSE
의 평균
: 1/n * SSE
RMSE
: 평균제곱근오차
: √MSE
MSPE
: MSE
를 %
로 변환
RMSLE
: log RMSE
, 이상치에 덜 민감함
MAE
: 실제값과 예측값의 차이의 절대값을 합한 평균값
: 1/n * ∑|실제값 - 예측값|
MAPE
: MAE
를 %
로 변환
MPE
: 실제값 - 예측값
의 상대적 오차를 백분율로 표현
: 100/n * ∑(실제값-예측값/실제값)
결정계수 R^2
: 회귀모형이 실제에 적합한 비율
: R^2
∝ 성능
Adjusted R^2
: 독립변수 개수 ∝ 결정계수의 문제를 보완
: 표본 크기n
, 독립변수 개수p
를 함께 고려해 결정계수 증가 보정
: 1-(n-1)*MSE/SST)
AIC
: 최대 우도(likelihood
)에 독립변수의 개수에 대한 손실분 반영
: 모형과 데이터의 확률 분포 차이 측정
: AIC ∝ 1/모형의 적합도
: AIC = -2 log L + 2K
(L
: 모형 적합도 척도, K
: 모형 파라미터 수)
BIC
: 주어진 데이터에서 모형의 우도 측정
: BIC = -2 log L + k log n
AIC
,BIC
: 모형 비교 기준으로, 모형이 복잡할 수록 Penalty를 부과함
s(i) > 0.5
= 적절한 군집 모델, s(i) = 0
= 의미 없음s(i) = b(i) - a(i) / max(a(i), b(i))
a(i)
: 군집 내 데이터 응집도b(i)
: 군집 간 분리도Dunn Index
군집 간 거리의 최소값 / 군집 내 요소 간 거리의 최대값
Dunn Index ∝ 성능
중심극한정리
n
개의 평균 분포n
이 적당히 크다면, 정규분포에 가까워짐표본분포평균 = 모평균
표준편차 = 모표준편차 / √n
정규성 검정 종류
- 샤피로-월크 검정 (
n < 2000
)- 콜모고로프 스미르노프 검정 (
n > 2000
)Q-Q Plot
:n
이 소규모, 시각화 도구 일종
실측치 - 예측치
)를 가장 작게 하는 선(잔차의 합 = 0
)잔차 정규성 진단
: 시각화도구(Q-Q Plot
)을 통한 정규분포와 잔차분포의 비교
잔차 등분산성 진단
: 잔차 분산의 등분산성 진단
잔차 독립성 진단
: 자기상관여부 판단
: 독립성 위배 → 시계열 분석을 통한 회귀 분석 진행
k
개의 subset + k-1
개의 훈련데이터 + 1
개의 검증데이터홀드아웃 기법 :
Hold Out
: 훈련/검증/테스트 데이터를 일정 비율로 지정
: 과적합 방지를 목적으로 함
: 데이터셋 크기가 작을수록 데이터를 나누는 방식에 따라 모델 성능 추정에 영향※ k-폴드 교차검증은
Hold Out
보다 안정성이 높으나, 계산비용도 높음.
t-검정
ANOVA
회귀분석
k
개의 범주별로 구분된 관측치들과 동일한 범주의 가정된 분포 사이의 적합도 검정k
가 나와야 할 횟수의 기댓값Mk
, 실제값Xk
의 차이∑{(Xk - Mk)^2 / Mk}
p-value
도출p-value < 유의수준
= 귀무가설(Ho
) 기각