Kubernetes 환경에서 SRE차이

하루·2026년 3월 23일

컨테이너 환경은 기존 서버 환경과 다르다. Pod가 언제든 죽고 다시 생기고, IP가 바뀌고, 스케일이 자동으로 오르내린다. 기존 방식으로 모니터링하면 놓치는 게 많다.

기존 서버 환경 vs K8s 환경

핵심 차이는 수명과 동적 변화다. 기존 환경은 "이 서버의 CPU가 높다"처럼 대상이 명확하다. K8s는 Pod가 계속 생겼다 사라지기 때문에 서비스 전체 상태를 기준으로 봐야 한다.

Pod가 정상인지 K8s가 판단하는 기준이다.

Probe	목적	실패 시
Liveness Probe	Pod가 살아있는지 확인	Pod 재시작
Readiness Probe	트래픽을 받을 준비가 됐는지 확인	트래픽에서 제외

Readiness가 없으면 앱이 뜨는 중에 트래픽이 들어와서 배포 중 503이 쏟아진다.

종류	설명
HPA (Horizontal Pod Autoscaler)	Pod 수를 늘리거나 줄인다
VPA (Vertical Pod Autoscaler)	Pod의 CPU/메모리 할당량을 조정한다

SLO와 연결하려면 커스텀 메트릭 기반 HPA를 쓴다. 에러율이 올라가면 Pod를 늘리는 방식이다.

로그
Pod가 죽으면 로그도 사라진다. 중앙 로그 수집이 필수다. (Fluentd, Loki 등)

메트릭
노드뿐 아니라 Pod, 컨테이너 단위 메트릭이 필요하다. Prometheus + Grafana가 K8s 표준 스택이다.

트레이싱
마이크로서비스 환경에서 요청이 여러 Pod를 거치기 때문에 Trace가 더 중요하다.

K8s SRE의 핵심은 동적 환경에 맞는 관찰 방식이다. Pod가 언제든 사라질 수 있기 때문에 로그는 중앙에 수집하고, 메트릭은 서비스 전체 단위로 보고, Probe로 트래픽 유입 시점을 정확히 제어해야 한다.