SRE
SRE란 Site Reliability Engineering의 약자로 조직이 시스템, 서비스 및 제품에서 적절한 수준의 안정성을 달성하도록 지원하는 엔지니어링 분야를 의미한다.
SRE는 서비스의 인프라와 운영 관점의 문제를 소프트웨어 엔지니어링 기법을 통해 해결하고자 나온 개념으로, 주요 목표는 확장성과 고가용성을 확보한 소프트웨어를 만드는 것이다.
SRE의 특징
-
Metrics & Monitoring
- 모니터링 지표를 정의하고, 이 지표를 모니터링 시스템에 올리는 일.
- 지표를 분석해서 insight를 도출하여 시스템을 개선하거나 안정성을 높이는 것.
- 서비스에 대한 지표를 SLI(Service Level Indicator)를 정하고,
- SLI - 기능적인 요구사항이 아닌 응답속도, 가용성, 처리량 등 서비스 수준을 판단할 수 있는 몇가지를 정량적으로 측정할 수 있는 척도.
- 각 지표에 대한 안정성 목표를 SLO(Service Level Objective)로 정해서 관리한다.
- SLO - SLI에 의해 측정된 서비스 수준의 목표 값 혹은 일정 범위의 값을 의미.
-
Capacity Planning
- 시스템을 운영하는데 필요한 hardware resource를 확보하는 작업
- 비정상적인 리소스 요청에 대해서도 유연하게 대응할 수 있어야 한다.
-
Change Management
- 소프트웨어 배포 및 업데이트를 할때 발생하는 문제를 최소화하고 자동화하는 방향으로 작업을 진행
-
Emergency Response
- 장애를 잘 예측하고, 정확하고 신속하게 대응하는 것을 의미.