분석 모형 평가 Analysis Model Evaluation

: ) YOUNG·2021년 11월 19일
2

빅분기

목록 보기
5/20
post-thumbnail

분석 모형 평가

평가지표

  • 빅데이터 분석 모형은 분류 모형과 회귀 모형(또는 예측 모형)에 따라 다른 평가지표를 이용하여 평가한다.

분석 모형 설정 및 평가 기준/방법

분석 모형 설정 ★★★★★★(중요)

이상적인 모형에서는 낮은 편향과 낮은 분산으로 설정되어야 한다.

편향(Bias)- 학습 알고리즘에서 잘못된 가정을 했을 때 발생하는 오차
분산(Variance)- 훈련 데이터(Training set)에 내재된 작은 변동으로 발생하는 오차

분석 모형 평가기준

구축한 빅데이터 분석 모형의 유용성을 판단하고 서로 다른 모형들을 비교하여 평가하는 과정이 중요하다

구축된 모형이 임의의 모형보다 더 우수한 분류 성과를 보이는지, 고려된 모형들 중 어느 것이 가장 우수한지 등을 분석하는 과정이다.

빅데이터 분석 모형은 만든 것으로 끝이 아니라 기존 운영 시스템과의 연계 및 통합을 통해서 지속적으로 빅데이터 분석 모형을 개선해 나가야 한다.

✔ 구축한 분석 모형이 실무에서 사용이 가능할 수 있을지를 판단하기 위해서는 객관적인 평가지표를 통한 평가가 필요하다.

✔ 일반화의 가능성, 효율성, 예측과 분류의 정확성으로 구분된다.


분석 모형 평가 방법★★★★★★(중요)

종속변수의 유형: 범주형

- 혼동 행렬(Confusion Matrix)

종속변수의 유형: 연속형

- RMSE(Root Mean Squared Error; 평균 제곱근 오차)

예측모형에서 회귀모형은 RMSE를 사용하고 분류모형은 혼동 행렬 평가지표를 사용한다.

종속변수가 범주형일 때 임임곗값이 바뀌면 정분류율은 변하지 않는다.


분류 모형의 평가지표

혼동 행렬(Confusion Matrix; 정어 행렬)★★★★★★(중요)

✔ 혼동 행렬은 분석 모델에서 구한 분류의 예측 범주와 데이터의 실제 분류 범주를 교차표(Cross Table) 형태로 정리한 행렬 또는 평가지표이다.

✔ 혼동 행렬에서 Positive/Negative는 예측한 값, True/False는 예측한 값과 실젯값의 비교 결과

혼동행렬 주의사항: 상단과 왼쪽의 이름을 잘 봐야함 아래 표는 예측값이 범주 값, 위가 실제 값이지만 시험때 반대로 나오는 경우가 많이 있음

1) 정분류율(Accuracy)

오분류율은 정분류율 - 1 한 값

2) 특이도(Specificity)

3) 민감도(Sensitivity)

⭐✔ (민감도 = 재현율 이 두가지 공식은 같음)

⭐✔ 재현율(recall)은 평가지표중 민감도와 동일하며 모형의 완전성(completeness)를 평가하는 지표이다.

  • 분류모형의 평가에 사용되는 그래프로 x축은 (1-특이도), y축은 민감도로 그려지는 그래프
  • ROC 그래프에서 이상적으로 완벽히 분류한 모형의 x축과 y축의 값 = (0, 1)

4) 정확도(Precision), 재현율(Recall)

5) 거짓 긍정률(FP Rate)
FPR = FP/(FP + TN)

5) 카파 통계량 (Kappa Statistic)

0~1의 값을 가지며 1에 가까울수록 모델의 예측 값과 실젯값이 정확히 일치하며, 0에 가까울수록 모델의 예측값과 실젯값이 불일치를 의미한다.

정확도 외에 카파 통계량을 통해 모형의 평가 결과가 우연히 나온 결과가 아니라는 것을 설명


ROC 곡선 (Receiver Operating Characteristic Curve; ROC Curve)★★★★★★(중요)

ROC 곡선은 그래프가 왼쪽 꼭대기에 가깝게 그려질수록 분류 성능이 우수하다.

가로축(x)을 혼동 행렬의 거짓 긍정률(FP Rate)로 두고 세로축(y)을 참 긍정률(TP Rate)로 두어 시각화한 그래프이다.

AUROC(Area Under ROC)★★★★★★(중요)

ROC곡선 아래의 면적을 의미한다.

AUC의 값은 항상 1 ~ 0.5의 값을 가진다.

값이 크면 클수록 (1에 가까울 수록) 모형의 성능이 좋다고 평가한다.

값이 0.5일 경우 랜덤 선택에 가까운 성능을 보여준다.

그래프가 왼쪽 상단에 가깝게 그려질수록 올바르게 예측한 비율은 높고 잘못 예측한 비율은 낮음을 의미한다.

ROC Curve ★★★★★★(중요)

레이더 이미지 분석의 성과를 측정하기 위해 개발된 이 그래프는 두 분류 분석 모형을 비교 분석 결과를 가시화 할 수 있다는 점에서 유용한 평가도구이다.

레이더 이미지 분석의 성과를 측정하기 위해 개발된 이 그래프는 두 분류 분석 모형을 비교 분석 결과를 가시화 할 수 있다는 점에서 유용한 평가도구이다.

X축에서는 거짓긍정률을 나타낸다 -> FP(Ratio(1-특이도))를 나타낸다

Y축에는 참 긍정률(TPR) = 민감도를 나타내 두 평가 값의 관계로 모형을 평가한다. 모형의 성과를 평가하는 기준은 그래프의 밑 부분 면적이 넓을 수록 좋은 모형으로 평가한다.

이익도표(Grain Chart)★★★★★★(중요)

분류모형의 성능을 평가하기 위한 척도(그래프 분석 방법)로, 분류된 관측치에 대해 얼마나 잘 이루어졌는지를 나타내기 위해 임의로 나눈 각 등급별로 반응검출율, 반응률, lift등의 정보를 산출하여 나타내는 도표이다.

✔ 분류 모형의 성능을 평가하기 위해 사용되는 그래프 분석 방법이다.

✔ 이익(Grain)은 목표 범주에 속하는 개체들이 임의로 나눈 등급별로 얼마나 분포하고 있는지를 나타내는 값이다.

0개의 댓글