ML | Ground Truth이란?

소리·2024년 5월 20일
  • 정의 : 한 장소에서 수집된 정보를 의미하는 말로, 기상학에서 유래

머신러닝/ AI 분야에서는

  • ground truth : 우리가 원하는 답
  • label : 명확한 답

경진대회와 같은 경우 label로 예측 값을 수치화할 수 있는데,
일반적으로는 우리가 원하는 답이 있지만, 그것이 맞는지를 알 수 없다. 즉 정답이 없다.

이 개념은 기획과 설계 부분에서 주로 사용한다.


쏘카에서 세탁 요청 로직 딥러닝 모델 을 구축하면서 지극히 주관적인 '오염'을 기준으로 세차 시기를 정하는 문제를 마주했는데, ground truth를 몰라서 어려웠다는 포스트를 읽었다.

쏘카 AI 세차 도입기 포스터 읽기

이들은

  • 판단 주제별 오염 판단 기준을 분류하고,
  • 차량 상태 값을 세차 요청을 기준으로 '깨끗한 상태', '오염된 상태'로 분류하고
  • 분석가 육안으로 판단한 근거로 ground truth를 재설정하였다. 판단기준을 설정한 후 정보의 신뢰도를 수치화한 결과로 모델 성능을 개선했다.

위 과정으로 새로운 로직을 생성했는데

  • 정의된 기준으로 조건 정리 :
    세차 요청 기준은 AI모델 판단, 고객 피드백, 정기 세차 필요 3가지로 구성

  • 각각의 판단 값에 우선순위를 부여 조건에 따라 필요한 세차 방식을 매칭

  • 기대효과를 고려해 로직을 조정 : 모델 추론값을 조합하여 오염으로 판단하는 조건에 여러 시나리오를 적용하여 최적의 조건을 고민


하는 과정을 거쳤다.
👩 위 포스터로 ground truth가 실제 어떤 영향을 미치는지, 어려움이 있는지 간접적으로 알게 되었고, 문제를 풀어가는 과정이 굉장히 흥미로웠다.

profile
데이터로 경로를 탐색합니다.

0개의 댓글