치아 위치 분석의 정확도, 어떻게 평가할까?
AI 기반 치아 분석 알고리즘이 점점 정교해지고 있습니다. 하지만 중요한 건 정확도 평가 방법이죠. 오늘은 딥러닝 기반 치아 인식/세분화 알고리즘의 성능을 평가하는 세 가지 핵심 지표를 소개합니다:
- TLA (Teeth Localization Accuracy)
- TSA (Teeth Segmentation Accuracy)
- TIR (Teeth Identification Rate)
이 지표들은 모두 실제(GT, Ground Truth) 치아와 예측된 결과 간의 차이를 수치로 평가합니다.
소개하는 평가지표들은 다음 논문을 참고하여 정리했습니다:
3DTeethSeg'22: 3D Teeth Scan Segmentation and Labeling Challenge
⟶ https://arxiv.org/abs/2305.18277
⟶ https://github.com/abenhamadou/3DTeethSeg_MICCAI_Challenges
이 논문은 포인트 클라우드 기반의 치아 데이터를 활용하여 치아를 정확하게 인식하고 분할하는 딥러닝 모델을 제안합니다.
모델의 성능을 정량적으로 평가하기 위해 TLA, TSA, TIR이라는 세 가지 핵심 지표를 사용하고 있으며,
이는 치아 중심 위치의 정확도, 개별 치아 분할 품질, 라벨 식별 능력을 평가하는 데 효과적입니다.
1. Teeth Localization Accuracy (TLA)
치아 중심 위치 정확도:
TLA는 예측된 치아 중심과 실제 치아 중심 간의 거리 정확도를 나타냅니다.
- 환자마다 치아 수가 다르기 때문에, “환자별 평균”을 단순히 다시 평균내는 건 왜곡이 생길 수 있음.
- 그래서 모든 GT 치아를 단위로 묶고, TLA를 “치아 단위로 평균”합니다.
계산 방법:
모든 GT 치아에 대해 아래 공식을 사용합니다:
TLA=N1i=1∑Nsi∥pi−p^i∥
- pi: GT 중심
- p^i: 예측 중심
- si: GT 치아 크기
- N: 두 테스트 세트에 포함된 전체 GT 치아 수
이렇게 얻은 정규화 거리들의 평균이 TLA 값이 됩니다.
중요한 포인트:
- 예측 실패 시 치아당 5의 패널티 부여됨 → 이는 해당 치아 크기의 5배 거리에 해당
- 평균은 모든 테스트 세트의 GT 치아에 대해 계산됨 (환자별 치아 수 상이 고려됨)
- 0에 가까울수록 예측이 정확함
- 정규화되어 있지만 0~1 사이 수치는 아님 (예: 실패 시 5까지 가능)
GT 치아 크기 산정 방식:
GT 치아의 크기는 AABB(Axis-Aligned Bounding Box)로 계산됩니다.
(실제 논문들(예: ToothFairy)에서도 자주 사용됩니다.)
최대 좌표와 최소 좌표 간의 3D 대각선 거리를 사용해 치아 크기를 정의합니다.
Tooth Size=∥max(x,y,z)−min(x,y,z)∥
2. Teeth Segmentation Accuracy (TSA)
치아 세분화 정확도:
TSA는 각 치아를 개별적으로 얼마나 잘 분할했는지를 나타냅니다.
계산 방법:
모든 치아 인스턴스에 대해 F1-score를 계산하여 평균을 냅니다.
F1=precision+recall2×precision×recall
Precision=TP+False Positives (FP)True Positives (TP)
Recall=TP+False Negatives (FN)True Positives (TP)
- 정확도 (Precision): 예측한 치아 포인트 중 진짜 치아일 확률
- 재현율 (Recall): 실제 치아 포인트 중 잘 맞춘 비율
F1-score는 0~1 사이 수치이며, 1에 가까울수록 정확한 분할입니다.
3. Teeth Identification Rate (TIR)
치아 식별률:
TIR (Teeth Identification Rate)는 "Ground Truth(GT) 치아 중 정확히 식별된 치아의 비율"입니다.
계산 방법:
TIR=Total number of GT teethNumber of correctly identified teeth×100
"정확히 식별된 치아"란?
다음 두 조건을 모두 만족해야 해당 치아는 "정확히 식별되었다"고 판단합니다:
-
위치 정확도 조건
예측된 중심점이 해당 GT 치아 중심점으로부터의 거리 (GT 치아 크기의 0.5배)
-
레이블 정확도 조건
예측된 치아의 레이블이 GT 치아 레이블과 동일
예시:
만약 테스트 세트에 GT 치아가 100개 있고, 그 중 80개가 위 조건을 만족한다면:
TIR=10080×100=80%
4. 정리 표: 세 가지 지표 비교
지표 | 의미 | 계산 방식 | 좋은 값 |
---|
TLA | 치아 중심 위치 정확도 | 정규화된 중심 간 거리 평균 | 작을수록 좋음 |
TSA | 치아 세분화 정확도 | 평균 F1-score | 클수록 좋음 |
TIR | 치아 라벨 식별률 | 올바른 식별 비율 (%) | 클수록 좋음 |
5. 마무리
AI가 치과 분야에 깊이 들어올수록, 단순한 “맞고 틀림”을 넘어서 정량적인 정확도 평가가 중요해지고 있습니다.
오늘 소개한 TLA, TSA, TIR 세 가지 지표는 치아 인식 및 세분화 모델의 기술적 신뢰성을 평가하는 데 핵심적인 역할을 합니다.