Tail latency는 응답 시간 분포에서 가장 느린 구간(꼬리 부분)의 지연 시간을 의미합니다.
일반적으로 시스템의 성능을 평균 응답 시간으로 측정하지만, tail latency는 다음과 같은 백분위수(percentile)로 표현됩니다:
예를 들어, P99가 500ms라면 100개 요청 중 99개는 500ms 이내에 완료되지만, 1개는 그보다 오래 걸린다는 의미입니다.
사용자 경험: 평균은 좋아도 일부 사용자가 극도로 느린 경험을 하면 전체 서비스 품질이 나빠집니다
대규모 시스템: 사용자가 많은 서비스에서는 "드문" 느린 요청도 자주 발생합니다
연쇄 효과: 마이크로서비스 아키텍처에서 한 서비스의 tail latency가 전체 시스템 성능에 영향을 줍니다
클라우드 서비스나 웹 애플리케이션에서는 평균 응답 시간만큼이나 tail latency를 모니터링하고 최적화하는 것이 중요합니다.