Tail latency

김동준·2025년 10월 20일

Tail latency는 응답 시간 분포에서 가장 느린 구간(꼬리 부분)의 지연 시간을 의미합니다.

개념 설명

일반적으로 시스템의 성능을 평균 응답 시간으로 측정하지만, tail latency는 다음과 같은 백분위수(percentile)로 표현됩니다:

P95 (95th percentile): 요청의 95%가 이 시간 내에 완료됨
P99 (99th percentile): 요청의 99%가 이 시간 내에 완료됨
P99.9: 요청의 99.9%가 이 시간 내에 완료됨

예를 들어, P99가 500ms라면 100개 요청 중 99개는 500ms 이내에 완료되지만, 1개는 그보다 오래 걸린다는 의미입니다.

왜 중요한가?

사용자 경험: 평균은 좋아도 일부 사용자가 극도로 느린 경험을 하면 전체 서비스 품질이 나빠집니다
대규모 시스템: 사용자가 많은 서비스에서는 "드문" 느린 요청도 자주 발생합니다
- 1억 요청 중 1%는 100만 건의 느린 요청입니다
연쇄 효과: 마이크로서비스 아키텍처에서 한 서비스의 tail latency가 전체 시스템 성능에 영향을 줍니다

개선 방법

타임아웃 설정: 너무 오래 걸리는 요청 차단
로드 밸런싱: 부하를 균등하게 분산
캐싱: 자주 사용되는 데이터를 미리 저장
리소스 격리: 느린 요청이 다른 요청에 영향을 주지 않도록 분리

클라우드 서비스나 웹 애플리케이션에서는 평균 응답 시간만큼이나 tail latency를 모니터링하고 최적화하는 것이 중요합니다.

Story Engineer

이전 포스트

KV 캐시(Key-Value Cache)

다음 포스트

Prefill과 Decoding

0개의 댓글