분류 모델을 평가할 때는 주로 Confusion Matrix를 기반으로 Accuracy, Precision, Recall F1 score를 측정한다
분류 모델(Classifier)의 성능을 측정하는 데 자주 사용되는 표
T(True): 예측한 것이 정답
F(False): 예측한 것이 오답
P(Positive): 모델이 positive라고 예측
N(Negative): 모델이 negative라고 예측
따라서
TP(True Positive): 모델이 positive라고 예측했는데 실제로 정답이 positive (정답)
TN(True Negative): 모델이 negative라고 예측했는데 실제로 정답이 negative (정답)
FP(False Positive): 모델이 positive라고 예측했는데 실제로 정답이 negative (오답)
FN(False Negative): 모델이 negative라고 예측했는데 실제로 정답이 positive (오답)
-> 정분류율 이라고 부르기도 함
전체 중에서 Positive와 Negative 로 정확히 예측한(TN + TP) 비율
하지만 데이터가 불균형할 때는 Accuracy만으로 제대로 분류됐는지 알 수 없음
따라서 Recall과 Precision을 사용함
0 ~ 1 사이의 값을 가지며, 1에 가까울수록 좋다
모델이 positive라고 예측한 것들 중에서 실제로 정답이 positive인 비율
ex) 비가 내릴 것으로 예측한 날 중에서 비가 실제로 내린 날의 비율
실제 Positive(FN + TP) 중에서 Positive로 예측한(TP) 비율
ex) 실제 비가 내린 날 중에서 비가 내릴 것으로 예측한 날의 비율
정밀도와 재현율의 조화 평균
분자가 같지만 분모가 다를 경우, 즉 관점이 다른 경우 조화 평균이 큰 의미를 가짐
회귀 모델을 평가할 때 주로 MAE, MSE, RMSE, MAPE 등을 사용한다.
실제 정답 값과 예측 값의 차이를 절댓값으로 변환한 뒤 합산하여 평균을 구한다.
특이값이 많은 경우에 주로 사용된다.
실제 정답 값과 예측 값의 차이를 제곱한 뒤 평균을 구한다.
MSE에 루트는 씌워서 에러를 제곱해서 생기는 값의 왜곡이 줄어든다.
MAE를 비율, 퍼센트로 표현하여 스케인 의존적 에러의 문제점을 개선한다.
MAPE에서 절대값을 제외하여 계산한다.
모델이 underperformance 인지 overperformance인지 판단할 수 있다.(음수이면 overperformance, 양수이면 underperformance)
다른 지표(MAE, MSE, RMSE)들은 모델마다 값이 다르기 때문에 절대 값만 보고 선능을 판단하기 어렵다.
R2 score는 상대적인 성능을 나타내기 비교가 쉽다.
실제 값의 분산 대비 예측값의 분산 비율을 의미한다.
알고리즘과 검증까지 다루기엔 글이 너무 길어져서... 빼도록 하겠습니다 ㅜ😢😢😢
알고리즘 study
https://keen-bowl-45a.notion.site/13549-3-V-7718c52789c14033acb157642f3c486e?pvs=4
CS study
https://keen-bowl-45a.notion.site/2-deb19594dd4844aeb4f049ae6f57da14?pvs=4
에이블러님들 한주간 고생 많으셨습니다~!
다음 주는 미니프로젝트 2차가 시작되는데 에이블러님들 모두 화이팅이에요 🤗
저는 대면으로 참석하기로 했습니다 대면으로 오시는 분들도 많겠죠? 다들 즐거움 미프 되셨으면 좋겠습니다
틀린 부분은 언제나 댓글로 지적 부탁드립니다!