AI가 치아를 얼마나 잘 알아볼까? 성능 지표 3가지로 확인하기

Bean·2025년 5월 29일

3D치아분석 AI모델평가 PointCloud TIR TLA TSA segmentation 딥러닝 의료AI 의료영상분석 치과AI 치과데이터 치아분할

인공지능

목록 보기

43/123

치아 위치 분석의 정확도, 어떻게 평가할까?

AI 기반 치아 분석 알고리즘이 점점 정교해지고 있습니다. 하지만 중요한 건 정확도 평가 방법이죠. 오늘은 딥러닝 기반 치아 인식/세분화 알고리즘의 성능을 평가하는 세 가지 핵심 지표를 소개합니다:

TLA (Teeth Localization Accuracy)
TSA (Teeth Segmentation Accuracy)
TIR (Teeth Identification Rate)

이 지표들은 모두 실제(GT, Ground Truth) 치아와 예측된 결과 간의 차이를 수치로 평가합니다.

소개하는 평가지표들은 다음 논문을 참고하여 정리했습니다:

3DTeethSeg'22: 3D Teeth Scan Segmentation and Labeling Challenge
⟶ https://arxiv.org/abs/2305.18277
⟶ https://github.com/abenhamadou/3DTeethSeg_MICCAI_Challenges

이 논문은 포인트 클라우드 기반의 치아 데이터를 활용하여 치아를 정확하게 인식하고 분할하는 딥러닝 모델을 제안합니다.
모델의 성능을 정량적으로 평가하기 위해 TLA, TSA, TIR이라는 세 가지 핵심 지표를 사용하고 있으며,
이는 치아 중심 위치의 정확도, 개별 치아 분할 품질, 라벨 식별 능력을 평가하는 데 효과적입니다.

1. Teeth Localization Accuracy (TLA)

치아 중심 위치 정확도:

TLA는 예측된 치아 중심과 실제 치아 중심 간의 거리 정확도를 나타냅니다.

환자마다 치아 수가 다르기 때문에, “환자별 평균”을 단순히 다시 평균내는 건 왜곡이 생길 수 있음.
그래서 모든 GT 치아를 단위로 묶고, TLA를 “치아 단위로 평균”합니다.

계산 방법:

모든 GT 치아에 대해 아래 공식을 사용합니다:

\text{TLA} = \frac{1}{N} \sum_{i=1}^{N} \frac{ \| p_i - \hat{p}_i \| }{s_i}

$p_i$ : GT 중심
$\hat{p}_i$ : 예측 중심
$s_i$ : GT 치아 크기
$N$ : 두 테스트 세트에 포함된 전체 GT 치아 수

이렇게 얻은 정규화 거리들의 평균이 TLA 값이 됩니다.

중요한 포인트:

예측 실패 시 치아당 5의 패널티 부여됨 → 이는 해당 치아 크기의 5배 거리에 해당
평균은 모든 테스트 세트의 GT 치아에 대해 계산됨 (환자별 치아 수 상이 고려됨)
0에 가까울수록 예측이 정확함
정규화되어 있지만 0~1 사이 수치는 아님 (예: 실패 시 5까지 가능)

GT 치아 크기 산정 방식:

GT 치아의 크기는 AABB(Axis-Aligned Bounding Box)로 계산됩니다.
(실제 논문들(예: ToothFairy)에서도 자주 사용됩니다.)
최대 좌표와 최소 좌표 간의 3D 대각선 거리를 사용해 치아 크기를 정의합니다.

\text{Tooth Size} = \| \text{max}(x,y,z) - \text{min}(x,y,z) \|

2. Teeth Segmentation Accuracy (TSA)

치아 세분화 정확도:

TSA는 각 치아를 개별적으로 얼마나 잘 분할했는지를 나타냅니다.

계산 방법:

모든 치아 인스턴스에 대해 F1-score를 계산하여 평균을 냅니다.

F1 = \frac{2 \times \text{precision} \times \text{recall}}{\text{precision} + \text{recall}}

\text{Precision} = \frac{\text{True Positives (TP)}}{\text{TP} + \text{False Positives (FP)}}

\text{Recall} = \frac{\text{True Positives (TP)}}{\text{TP} + \text{False Negatives (FN)}}

정확도 (Precision): 예측한 치아 포인트 중 진짜 치아일 확률
재현율 (Recall): 실제 치아 포인트 중 잘 맞춘 비율

F1-score는 0~1 사이 수치이며, 1에 가까울수록 정확한 분할입니다.

3. Teeth Identification Rate (TIR)

치아 식별률:

TIR (Teeth Identification Rate)는 "Ground Truth(GT) 치아 중 정확히 식별된 치아의 비율"입니다.

계산 방법:

\text{TIR} = \frac{\text{Number of correctly identified teeth}}{\text{Total number of GT teeth}} \times 100

"정확히 식별된 치아"란?

다음 두 조건을 모두 만족해야 해당 치아는 "정확히 식별되었다"고 판단합니다:

위치 정확도 조건
예측된 중심점이 해당 GT 치아 중심점으로부터의 거리 (GT 치아 크기의 0.5배)
레이블 정확도 조건
예측된 치아의 레이블이 GT 치아 레이블과 동일

예시:

만약 테스트 세트에 GT 치아가 100개 있고, 그 중 80개가 위 조건을 만족한다면:

\text{TIR} = \frac{80}{100} \times 100 = 80\%

4. 정리 표: 세 가지 지표 비교

지표	의미	계산 방식	좋은 값
TLA	치아 중심 위치 정확도	정규화된 중심 간 거리 평균	작을수록 좋음
TSA	치아 세분화 정확도	평균 F1-score	클수록 좋음
TIR	치아 라벨 식별률	올바른 식별 비율 (%)	클수록 좋음

5. 마무리

AI가 치과 분야에 깊이 들어올수록, 단순한 “맞고 틀림”을 넘어서 정량적인 정확도 평가가 중요해지고 있습니다.
오늘 소개한 TLA, TSA, TIR 세 가지 지표는 치아 인식 및 세분화 모델의 기술적 신뢰성을 평가하는 데 핵심적인 역할을 합니다.

Bean

AI developer

이전 포스트

딥러닝 Feature, 어디서 추출해야 성능이 잘 나올까?

다음 포스트

AI가 치아를 얼마나 잘 알아볼까? 성능 지표 3가지로 확인하기

인공지능

치아 위치 분석의 정확도, 어떻게 평가할까?

1. Teeth Localization Accuracy (TLA)

2. Teeth Segmentation Accuracy (TSA)

3. Teeth Identification Rate (TIR)

4. 정리 표: 세 가지 지표 비교

5. 마무리

딥러닝 Feature, 어디서 추출해야 성능이 잘 나올까?

GPU 메모리 부족? VRAM 최적화 완벽 가이드 (Pytorch)

0개의 댓글