분석 후 적합한 모형을 도출하는데 지표가 사용되며 각 모델마다 평가되는 해석 지표들이 다르다
회귀 모델의 평가를 위한 지표는 일반적으로 잔차, 결정계수 등이 있다.
잔차는 회귀모형으로 실제값과 예측값의 차이를 의미하는 것이며, 잔차에는 패턴이나 추세가 있어서는 안된다.
결정계수는 추정된 회귀식이 변동을 얼마나 잘 설명했는가에 대한 지표로, 값이 1에 가까울수록 실제 관측값이 회귀선상에 정확히 일치함을 의미한다.
잔차
MAE(Mean Absolute Error)
예측값과 실제값 차이를 절대값을 취한 뒤 더한것에 평균
MSE(Mean Squared Error)
예측값과 실제값 차이를 제곱, 더한것에 평균
MAPE(Mean Absolute Percentage Error)
MAE를 퍼센트로 변환한 값
MSPE(Mean Absolute Percentage Error)
MSE를 퍼센트로 변환한 값
RMSE(Root Mean Squared Error)
MSE에 루트를 씌운 값
RMSLE(Root Mean Squared Logarithmic Error)
RMSE에 로그를 취한 값
결정계수
R^2(R squared, Coefficient of Determination)
총제곱합(SST)에 대한 회귀제곱합(SSR)
R^2 = SSR(예측모형편차) / SST(전체편차) = (1-SSE) / SST
Adjusted R Squared
수정된 R^2
표본 크기(n)와 독립변수 개수(p) 추가 고려(학습 데이터 또는 독립변수가 많아질수록 모형 예측 능력과 상관없이 결정계수가 커지는 경향 방지)
각각의 경우에 따라 클래스별로 속할 확률의 정확도를 살펴본다
정확도(Accuracy)
TP+FN / TP+TN+FN+FP
정밀도(Precision)
TP/TP+FP
재현율(Recall)
TP/TP+FN
F1 Score
정밀도와 재현도의 조화 평균
Precision x Recall x 2 / Precision + Recall
ROC(Receiver Operation Characteristics
FPR(False Positive Rate)이 변할때 TPR(True Positive Rate, 민감도)이 어떻게 변하는지 보여주는 곡선
FPR = FP / FP + TN == 실제 음성을 양성으로 잘못 예측하는 수준
TPR = TP / TP + FN == 실제 양성이 정확하게 예측되어야 하는 수준
(TPR = 민감도)
AUC(Area Under Curve)
ROC곡선 밑의 면적
군집그룹의 통계량을 요약하고 관측치의 공통점과 변동성을 확인한다.
연속형 변수의 경우 평균 또는 중앙값을 계산하고 범주형 변수가 있는 경우 범주별로 각 군집의 분포를 확인한다.
외부평가(External Evaluation)
얼마나 유사하게 군집화가 되었는지 확인
자카드지수(집합간의 유사도 측정) J(A,B) = TP / TP+FP+FN
내부평가(Internal Evaluation)
적절한 군집(클러스터링) 개수 결정
Dunn Index(군집간의 거리가 멀수록 군집 내부 분산값이 작을수록 좋은 군집화 결과 반영)
= 군집간 거리 최소값 / 군집내 요소간 거리 최대값
팔꿈치 기법(Elbow Method)
팔꿈치(Elbow)모습을 나타내는 곳 값을 적절한 군집(클러스터링 개수)K값으로 지정
실루엣 기법(Silhouette Method)
다른 군집과의 거리는 떨어져있고 동일 군집끼리의 데이터는 서로 가깝게 잘 뭉쳐있다는 의미로 0~1의 값을 가지며 1에 가까울수록 최적화가 잘되어 있음으로 해석
두개 또는 이상의 품목들 사이의 상호 관련성으로 해석한다.
지지도, 신뢰도 및 향상도가 높은 규칙들을 찾되 최소 기준점을 적용하며 빈발 집합을 고려하여 연관규칙을 생성하는 Apriori 알고리즘을 사용한다.
지지도(Support)
전체 거래에서 품목 A와 B가 동시에 포함된 거래의 수 (N= 전체 거래수)
Support = count(A&B) / N
신뢰도(Confidence)
품목 A가 구매되었을 때 품목 B가 추가로 구매될 확률 (조건부확률)
Confidence = count(A&B) / A
향상도(Lift)
품목 A를 구매할때 B도 추가로 구매하는지의 연관성을 파악하는 비율
Lift > 1 양의 상관 관계
Lift == 1 독립적인 관계
Lift < 1 음의 상관 관계
Lift = (A&B x N) / A x B