[구글 머신러닝 단기집중과정] 11강

환공지능·2021년 7월 5일
0
post-thumbnail

1. 분류(Classification) : 임계값(Thresholding)

로지스틱 회귀는 확률을 반환한다. 반환된 확률을 '있는 그대로' 사용하거나(예: 사용자가 이 광고를 클릭할 확률은 0.00023임) 이진 값으로 변환하여(예: 이 이메일은 스팸임) 사용할 수 있다.

로지스틱 회귀 모형에서 특정 이메일에 관해 0.9995가 반환되면 이 이메일은 스팸일 가능성이 매우 높은 메일로 예측된 것이다. 이와 반대로 동일한 로지스틱 회귀 모형에서 예측 점수가 0.0003점인 다른 이메일은 스팸이 아닐 가능성이 높다. 그렇다면 예측 점수가 0.6점인 이메일은 어떨까? 로지스틱 회귀 값을 이진 카테고리에 매핑하려면 분류 임계값(결정 임계값이라고도 함)을 정의해야 한다. 임계값보다 높은 값은 '스팸'을 나타내고 임계값보다 낮은 값은 '스팸 아님'을 나타낸다. 분류 임계값은 항상 0.5여야 한다고 생각하기 쉽지만 임계값은 문제에 따라 달라지므로 값을 조정해야 한다.

2. 분류 : 참과 거짓, 양성과 음성

정확성은 분류 모델 평가를 위한 측정항목 중 하나이다. 비공식적으로 정확성은 모델의 예측이 얼마나 정확한가를 보여주며, 공식적으로 정확성의 정의는 다음과 같다.

정확성=정확한예측수총예측수정확성 = \frac{정확한 예측수}{총 예측수}

이진 분류에서는 다음과 같이 양성과 음성을 기준으로 정확성을 계산할 수도 있다.

정확성=TP+TNTP+TN+FP+FN정확성 = \frac{TP+TN}{TP+TN+FP+FN}

여기에서 TP=참 양성(True Positives), TN=참 음성(True Negatives),FP=허위 양성(False Positives), FN=허위 음성(False Negatives)이다.

다음과 같이 악성으로 분류된 종양(포지티브 클래스) 또는 양성으로 분류된 종양(네거티브 클래스) 모델 100개의 정확성을 계산해 보겠다.

참 양성(TP):
실제: 악성
ML 모델 예측: 악성
참 양성 결과수: 1

허위 양성(FP):
실제: 양성
ML 모델 예측: 악성
허위 양성 결과수: 1|

허위 음성(FN):
실제: 악성
ML 모델 예측: 양성
허위 음성 결과수: 8|

참 음성(TN):
실제: 양성
ML 모델 예측: 양성
참 음성 결과수: 90|

정확성=TP+TNTP+TN+FP+FN=1+901+90+1+8=0.91정확성 = \frac{TP+TN}{TP+TN+FP+FN} = \frac{1+90}{1+90+1+8} = 0.91

정확성은 0.91 또는 91%(총 100개의 예제 중 정확한 예측 91개)로 나타나며, 이는 종양 분류자가 악성 종양을 제대로 식별했음을 의미한다.

실제로 양성 예제와 음성 예제를 더 면밀하게 분석하면 모델의 성능을 자세히 파악할 수 있다.

종양 예제 100개 중 91개는 양성(참 음성 90개와 허위 양성 1개)이고, 9개는 악성(참 양성 1개와 허위 음성 8개)가 된다.

모델은 양성 종양 91개 중 90개를 양성으로 정확히 식별한다. 뛰어난 예측 능력이지만 악성 종양 9개 가운데 1개만 악성으로 식별한다. 악성 종양 9개 중 8개가 미확진 상태로 남았다는 것은 형편없는 예측 결과이다.

언뜻 보기에는 91% 정확성이 좋아 보일 수 있지만 이 예제에서 항상 양성으로 예측하는 다른 종양 분류자 모델도 정확히 동일한 정확성(91/100의 정확한 예측)을 달성할 것이다. 다시 말해 이 모델은 악성 종양과 양성 종양을 구분하는 예측 능력이 0인 모델과 비교해서 전혀 나을 바가 없다는 것이다.

이와 같이 클래스 불균형 데이터 세트를 사용하면 양성 라벨수와 음성 라벨수가 상당히 다르므로 정확성만으로는 모든 것을 평가할 수 없다.

3. 분류 : 정밀도와 재현율

(1) 정밀도

정밀도는 다음과 같은 질문에 답하고자 한다.

양성으로 식별된 사례 중 실제로 양성이었던 사례의 비율은 어느 정도인가요?

정밀도는 다음과 같이 정의된다.

정밀도=TPTP+FP정밀도 = \frac {TP}{TP+FP}

이전 섹션에서 사용한 종양을 분석하는 ML 모델의 정밀도를 계산해 보면,

참양성(TP) : 1거짓양성(FP) : 1
거짓음성(FN) : 8참음성(TN) : 90
정밀도=TPTP+FP=11+1=0.5정밀도 = \frac {TP}{TP + FP} = \frac {1}{1+1} = 0.5

이 모델의 정밀도는 0.5이며, 즉 이 모델에서 어떤 종양이 악성일 것이라고 평가했을 때, 이 평가가 정확할 확률은 50%이다.

(2) 재현율

재현율은 다음과 같은 질문에 답하고자 한다.

실제 양성 중 정확히 양성이라고 식별된 사례의 비율은 어느 정도인가요?

수학적으로 재현율은 다음과 같이 정의된다.

재현율=TPTP+FN재현율 = \frac {TP}{TP+FN}

종양 분류 모델의 재현율을 계산해 보면,

재현율=TPTP+FN=11+8=0.11재현율 = \frac {TP}{TP + FN} = \frac {1}{1+8} = 0.11

이 모델의 재현율은 0.11이며, 즉 이 모델에서는 모든 악성 종양 중 11%가 정확하게 식별된다.

4. 분류 : ROC 및 AUC

(1) ROC 곡선

ROC 곡선(receiver operating characteristic curve)은 모든 분류 임계값에서 분류 모델의 성능을 보여주는 그래프이다. 이 곡선은 다음 두 매개변수를 표시한다.

  • 참 양성 비율(TPR : True Positive Rate)
  • 허위 양성 비율(FPR : False Positive Rate )

참 양성 비율(TPR)은 재현율의 동의어이며 이에 따라 다음과 같이 정의된다.

TPR=TPTP+FNTPR = \frac {TP}{TP+FN}

허위 양성 비율(FPR)은 다음과 같이 정의된다.

FPR=FPFP+TNFPR = \frac {FP}{FP+TN}

ROC 곡선은 다양한 분류 임계값의 TPR 및 FPR을 나타낸다. 분류 임계값을 낮추면 더 많은 항목이 양성으로 분류되므로 거짓양성과 참양성이 모두 증가한다. 다음 그림에서는 일반 ROC 곡선을 보여준다.


그림 4. 다양한 분류 임계값의 참 양성(TP) 및 허위 양성(FP) 비율

ROC 곡선의 점을 계산하기 위해 분류 임계값이 다른 로지스틱 회귀 모형을 여러 번 평가할 수 있지만 이 방법은 효율적이지 않다. 다행히 이 정보를 제공할 수 있는 효율적인 정렬 기반 알고리즘이 있는데, 이를 AUC라고 한다.

(2) AUC : Area Under the ROC Curve

AUC는 'ROC 곡선 아래 영역'을 의미한다. 즉, AUC는 (0,0)에서 (1,1)까지 전체 ROC 곡선 아래에 있는 전체 2차원 영역을 측정한다.


그림 5. AUC(ROC 곡선 아래 영역)

AUC는 가능한 모든 분류 임계값에서 성능의 집계 측정값을 제공한다. AUC를 해석하는 한 가지 방법은 모델이 임의 양성 예제를 임의 음성 예제보다 더 높게 평가할 확률이다. 예를 들어 다음 예에서는 로지스틱 회귀 예측의 오름차순으로 왼쪽에서 오른쪽으로 정렬되어 있다.


그림 6. 로지스틱 회귀 점수를 오름차순으로 평가한 예측

AUC는 임의의 양성(초록색) 예제가 임의의 음성(빨간색) 예제의 오른쪽에 배치되는 확률을 나타낸다.

AUC 값의 범위는 0~1이며, 예측이 100% 잘못된 모델의 AUC는 0.0이고 예측이 100% 정확한 모델의 AUC는 1.0이다.

AUC는 다음 두 가지 이유로 이상적이다.

  • AUC는 척도 불변이다. AUC는 절대값이 아니라 예측이 얼마나 잘 평가되는지 측정한다.
  • AUC는 분류 임계값 불변이다. AUC는 어떤 분류 임계값이 선택되었는지와 상관없이 모델의 예측 품질을 측정한다.

하지만 이러한 두 이유는 특정 사용 사례에서 AUC의 유용성을 제한할 수 있다는 단점이 있다.

척도 불변이 항상 이상적인 것은 아니다. 예를 들어 잘 보정된 확률 결과가 필요한 경우가 있는데 AUC로는 이 정보를 알 수 없다.

분류 임계값 불변이 항상 이상적인 것은 아니다. 허위 음성(FN) 비용과 허위 양성(FP) 비용에 큰 차이가 있는 경우 한 가지 유형의 분류 오류를 최소화하는 것은 위험할 수 있다. 예를 들어 이메일 스팸 감지를 실행할 때 허위 양성(FP)의 최소화로 인해 허위 음성(FN)이 크게 증가한다고 해도 허위 양성(FP) 최소화를 우선시하고 싶을 수 있다. AUC는 이런 유형의 최적화에 유용한 측정항목이 아니다.

.
.
.
강의 링크 : 구글 머신러닝 단기집중과정

profile
데이터사이언티스트 대학원생

0개의 댓글