분석 모형 설정 ★★★★★★(중요)
✔ 이상적인 모형에서는 낮은 편향과 낮은 분산으로 설정되어야 한다.
편향(Bias) | - 학습 알고리즘에서 잘못된 가정을 했을 때 발생하는 오차 |
분산(Variance) | - 훈련 데이터(Training set)에 내재된 작은 변동으로 발생하는 오차 |
분석 모형 평가기준
✔ 구축한 빅데이터 분석 모형의 유용성을 판단하고 서로 다른 모형들을 비교하여 평가하는 과정이 중요하다
✔ 구축된 모형이 임의의 모형보다 더 우수한 분류 성과를 보이는지, 고려된 모형들 중 어느 것이 가장 우수한지 등을 분석하는 과정이다.
✔ 빅데이터 분석 모형은 만든 것으로 끝이 아니라 기존 운영 시스템과의 연계 및 통합을 통해서 지속적으로 빅데이터 분석 모형을 개선해 나가야 한다.
✔ 구축한 분석 모형이 실무에서 사용이 가능할 수 있을지를 판단하기 위해서는 객관적인 평가지표를 통한 평가가 필요하다.
✔ 일반화의 가능성, 효율성, 예측과 분류의 정확성으로 구분된다.
분석 모형 평가 방법★★★★★★(중요)
종속변수의 유형: 범주형 | - 혼동 행렬(Confusion Matrix) |
종속변수의 유형: 연속형 | - RMSE(Root Mean Squared Error; 평균 제곱근 오차) |
✔ 예측모형에서 회귀모형은 RMSE를 사용하고 분류모형은 혼동 행렬 평가지표를 사용한다.
✔ 종속변수가 범주형일 때 임임곗값이 바뀌면 정분류율은 변하지 않는다.
혼동 행렬(Confusion Matrix; 정어 행렬)★★★★★★(중요)
✔ 혼동 행렬은 분석 모델에서 구한 분류의 예측 범주와 데이터의 실제 분류 범주를 교차표(Cross Table) 형태로 정리한 행렬 또는 평가지표이다.
✔ 혼동 행렬에서 Positive/Negative는 예측한 값, True/False는 예측한 값과 실젯값의 비교 결과
혼동행렬 주의사항: 상단과 왼쪽의 이름을 잘 봐야함 아래 표는 예측값이 범주 값, 위가 실제 값이지만 시험때 반대로 나오는 경우가 많이 있음
1) 정분류율(Accuracy)
오분류율은 정분류율 - 1 한 값
2) 특이도(Specificity)
3) 민감도(Sensitivity)
⭐✔ (민감도 = 재현율 이 두가지 공식은 같음)
⭐✔ 재현율(recall)은 평가지표중 민감도와 동일하며 모형의 완전성(completeness)를 평가하는 지표이다.
4) 정확도(Precision), 재현율(Recall)
5) 거짓 긍정률(FP Rate)
FPR = FP/(FP + TN)
5) 카파 통계량 (Kappa Statistic)
✔ 0~1의 값을 가지며 1에 가까울수록 모델의 예측 값과 실젯값이 정확히 일치하며, 0에 가까울수록 모델의 예측값과 실젯값이 불일치를 의미한다.
✔ 정확도 외에 카파 통계량을 통해 모형의 평가 결과가 우연히 나온 결과가 아니라는 것을 설명
ROC 곡선 (Receiver Operating Characteristic Curve; ROC Curve)★★★★★★(중요)
✔ ROC 곡선은 그래프가 왼쪽 꼭대기에 가깝게 그려질수록 분류 성능이 우수하다.
✔ 가로축(x)을 혼동 행렬의 거짓 긍정률(FP Rate)로 두고 세로축(y)을 참 긍정률(TP Rate)로 두어 시각화한 그래프이다.
AUROC(Area Under ROC)★★★★★★(중요)
✔ ROC곡선 아래의 면적을 의미한다.
✔ AUC의 값은 항상 1 ~ 0.5의 값을 가진다.
✔ 값이 크면 클수록 (1에 가까울 수록) 모형의 성능이 좋다고 평가한다.
✔ 값이 0.5일 경우 랜덤 선택에 가까운 성능을 보여준다.
✔ 그래프가 왼쪽 상단에 가깝게 그려질수록 올바르게 예측한 비율은 높고 잘못 예측한 비율은 낮음을 의미한다.
ROC Curve ★★★★★★(중요)
✔ 레이더 이미지 분석의 성과를 측정하기 위해 개발된 이 그래프는 두 분류 분석 모형을 비교 분석 결과를 가시화 할 수 있다는 점에서 유용한 평가도구이다.
✔ 레이더 이미지 분석의 성과를 측정하기 위해 개발된 이 그래프는 두 분류 분석 모형을 비교 분석 결과를 가시화 할 수 있다는 점에서 유용한 평가도구이다.
✔ X축에서는 거짓긍정률을 나타낸다 -> FP(Ratio(1-특이도))를 나타낸다
✔ Y축에는 참 긍정률(TPR) = 민감도를 나타내 두 평가 값의 관계로 모형을 평가한다. 모형의 성과를 평가하는 기준은 그래프의 밑 부분 면적이 넓을 수록 좋은 모형으로 평가한다.
이익도표(Grain Chart)★★★★★★(중요)
✔ 분류모형의 성능을 평가하기 위한 척도(그래프 분석 방법)로, 분류된 관측치에 대해 얼마나 잘 이루어졌는지를 나타내기 위해 임의로 나눈 각 등급별로 반응검출율, 반응률, lift등의 정보를 산출하여 나타내는 도표이다.
✔ 분류 모형의 성능을 평가하기 위해 사용되는 그래프 분석 방법이다.
✔ 이익(Grain)은 목표 범주에 속하는 개체들이 임의로 나눈 등급별로 얼마나 분포하고 있는지를 나타내는 값이다.