ML | Ground Truth이란?

소리·2024년 5월 20일

머신러닝/ AI 분야에서는

경진대회와 같은 경우 label로 예측 값을 수치화할 수 있는데,
일반적으로는 우리가 원하는 답이 있지만, 그것이 맞는지를 알 수 없다. 즉 정답이 없다.

이 개념은 기획과 설계 부분에서 주로 사용한다.

쏘카에서 세탁 요청 로직 딥러닝 모델 을 구축하면서 지극히 주관적인 '오염'을 기준으로 세차 시기를 정하는 문제를 마주했는데, ground truth를 몰라서 어려웠다는 포스트를 읽었다.

이들은

판단 주제별 오염 판단 기준을 분류하고,
차량 상태 값을 세차 요청을 기준으로 '깨끗한 상태', '오염된 상태'로 분류하고
분석가 육안으로 판단한 근거로 ground truth를 재설정하였다. 판단기준을 설정한 후 정보의 신뢰도를 수치화한 결과로 모델 성능을 개선했다.

위 과정으로 새로운 로직을 생성했는데

하는 과정을 거쳤다.
👩 위 포스터로 ground truth가 실제 어떤 영향을 미치는지, 어려움이 있는지 간접적으로 알게 되었고, 문제를 풀어가는 과정이 굉장히 흥미로웠다.

데이터로 경로를 탐색합니다.