머신러닝 (검증편)

김찬울·2021년 8월 11일
0

당연한 이야기다. 머신러닝뿐만 아니라 사업 모델이든 어떠한 공식이든 확률이든,

그리고 내가 지금 공부하는 머신러닝에서의 모델도

사용하는 것이 옳은지 그른지는 확인을 해야한다.

이를 우리는 검증이라고 하기로 하였다.

검증

검증도 모델과 마찬가지로 검증모델이 따로 있다.

점수 계산법이 여러가지인 것처럼 해당 모델도 여러가지의 점수 측정 방식을 지닌다.

그리고 이 검증안에는 간단히 내가 도출한 값과 실제 정답 값을 비율로 나타낸 정확도뿐만 아니라

정밀도

재현율

이 있다.

일단 왜 정확도로만 존재하는 것이 아니냐면

과대적합모델이나 데이터 불균형 모델의 경우 훈련데이터나, 테스트 데이터 셋에 한에서만 잘나오는 경우가 있고 특히 데이터 불균형으로 옳은것이 90%정도를 차지한다면 모두 True로 리턴을 하면 단 한줄로 정확도 90%를 가진다. 이로 인해 정밀도와 재현율이 필요한 것이다.

이제 네가지의 경우를 설명하겠다. 큰 분류로는 실제로 True인 값과 False인 값이 있다.

그럼 각각의 True와 False도 세부 분류로 나뉘어진다. 이는

맞은 True, 틀린 True 그리고 맞은 False, 틀린 False 이렇게 네 가지로 나뉘어진다.

맞은 True + 맞은 False / 맞은 True + 틀린 True + 맞은 False + 틀린 False 가 정확도이다.

정밀도

정밀도는 precision으로 실제 정답중에 얼마나 정답인지를 확인하는 지표인데 이는

맞은 True / 맞은 True + 틀렸지만 실제 값은 True

로 나타낸다.

정밀도에는 한 가지 단점이 있는데 이는 모든 값을 True로 출력하면 1로 구현된다는 점이다.

이래서 정밀도 뿐만아니라 정확도와 재현율 모두 필요하다.

재현율

재현율은 recall이라 부른다. 해당 점수는 내가 true라고 예측한 것중에서 실제 정답을 찾는 것이다.

이는 실제 True / 맞춘 True + 맞다고 했지만 틀린 True 의 비율이다.

재현율은 위와 다르게 어떤 문제가 있냐면 10개의 정답중 1개를 정답이라하고 그 값이 정답이 맞으면 1이 나오기에 이런 단점이 있다.

이로써 정밀도와 재현율은 서로 하나가 오르면 다른 하나가 낮아지는 trade-off관계이다.

profile
코린코린이

0개의 댓글