(p.74)
- 클라우드 서비스 사용 조건은 서비스 수준 합의서 (SLA)에 표현된다.
- SLA는 클라우드 기반 서비스의 서비스 품질(QoS, Queality of Service) 특성이나 행동 양식, 제약 사항, 프로비저닝 등을 명시한 클라우드 제공자와 클라우드 소비자간 서비스 계약서다.
- SLA는 가동시간, 보안 특성, 가용성, 신뢰성, 성능 등을 포함한 특정 서비스 품질 특성과 같은 IT 성과와 관련된 여러 측정 가능한 특성의 상세 내역을 제공한다.
SLA (Service Level Agreement, 서비스 수준 합의서)
서비스 품질(QoS, Quality of Service) 기능과 보증 및 제한 사항을 설명하는 가독성 있는 문서, 즉 계약서
SLA는 협상과 계약서, 법적 의무, 런타임 지표 및 측정의 중점 사항이다.
클라우드 제공자의 보증 내용을 공식화하고 가격 모델 및 지불 조건 등을 결정
SLA는 클라우드 소비자의 기대치를 설정하고 어떻게 기업이 클라우드 기반 IT 자원을 활용해 사업 자동화를 구축할 것인가에 필수적인 요소가 된다.
-> 이를 이용하여 계약서 작성
Availability (가용성)
Reliability (신뢰성)
Performance (성능)
Scalability (확장성)
Resiliency (복원력/회복성)
Service Quality Metrics 특징
정량화 가능 (Quantifiable)
반복 가능 (Repeatable)
비교 가능 (Comparable)
획득 용이 (Easily Obtainable)
Availability Rate Metric (가용율 지표)
설명: 서비스 가동시간 백분율
IT 자원이 항상 이용 가능하면 100%의 가동 시간을 갖는 것이다.
정지 시간의 합산을 고려하기에 개별 정지 시간에 대해서는 고려하지 않는다.
측정: 총 가동시간 / 총 시간
빈도: 주, 월, 연 단위
예제: 최소 95% 가동시간
Outage Duration Metric (가동 중단 기간 지표)
설명: 단일 가동 중단 지속 기간
최대 및 평균 연속 서비스 중단 수준 목표를 정의하는데 사용된다.
개별 정지 시간의 길이에 대해서 고려
측정: 가동 중단 일/시간 – 가동 시작 일/시간
빈도: 이벤트 발생 시
예제: 최대 1시간, 평균 15분
정의: 주어진 환경에서 실패없이 IT자원이 의도된 기능을 수행하는 확률
Mean-Time between Failures (MTBF, 평균고장간격)
설명: 연이은 서비스 실패 사이의 기대 시간
측정: 정산적인 구동시간 / 실패 횟수
빈도: 월, 연 단위
예제: 평균 90일
Reliability Rate Metric (신뢰율 지표)
설명: 주어진 조건으로 성공적인 서비스 결과의 백분율
측정: 총 성공 응답 횟수 / 총 요청 횟수
빈도: 주, 월, 연 단위
예제: 최소 99.5%
Network Capacity Metric (네트워크 용량 지표)
설명: 네트워크 용량의 측정 가능한 특징
측정: 대역폭 / 초당 비트 처리량
대역폭은 bandwidth로 이론적인 최대 전송가능한 비트 수
처리량은 throughput로 실제로 전송되는 비트 수
예제: 초당 10MB
Storage Device Capacity Metric (스토리지 장치 용량 지표)
설명: 스토리지 장치 용량의 측정 가능한 특징
측정: GB 단위의 스토리지 크기
예제: 80GB 스토리지
Server Capacity Metric (서버 용량 지표)
설명: 서버 용량의 측정 가능한 특징
측정: CPU개수 , GHz단위의 CPU 주파수, GB 단위의 RAM 크기, GB단위의 스토리지 크기
예제: 1.8GHz의 1Core CPU, 16GB RAM, 80GB 스토리지
Web Application Metric (웹 어플리케이션 용량 지표)
설명: 웹 어플리케이션 용량의 측정 가능한 특징
측정: 분당 요청률
예제: 분당 최대 100,000건의 요청
Instance Starting Time Metric (인스턴스 시작시간 지표)
설명: 새 인스턴스를 초기화하는데 필요한 시간
측정: 인스턴스 활성화 시각/날짜 – 인스턴스 시작 요청 시각/날짜
예제: 최장5분, 평균3분
Response Time Metric (응답시간 지표)
설명: 동기적 동작 수행시 필요한 시간
측정: (요청 시각/날짜 – 응답 시각/날짜)/총 요청 횟수
예제: 평균5ms
Completion Time Metric (완료 시간 지표)
설명: 비동기적 작업을 완료하는 데 필요한 시간
측정: (요청 날짜 – 응답 날짜) / 총 요청 횟수
예제: 평균 1초
- 동기적(Synchronous) : 어떤 작업을 요청했을 때 그 작업이 종료될 때까지 기다린 후 다음(다른) 작업을 수행하는 방식
- 비동기적(Asynchronous) : 어떤 작업을 요청했을 때 그 작업이 종료될 때까지 기다리지 않고 다른 작업을 하고 있다가, 요청했던 작업이 종료되면 그에 대한 추가 작업을 수행하는 방식
Storage Scalability (Horizontal) Metric (스토리지 확장성(수평적)지표)
설명: 증가하는 작업부하에 대응해 허용 가능한 스토리지 장치 용량 변화
측정: GB 단위의 스토리지 크기
예제: 최대 1,000GB
Server Scalability (Horizontal) Metric (서버 확장성(수평적) 지표)
설명: 증가하는 작업부하에 대응해 허용 가능한 서버 용량 변화
측정: 자원 풀 내의 가상 서버 수
예제: 최소 가상 서버 1대, 최대 가상 서버 10대
Server Scalability (Vertical) Metric (서버 확장성(수직적) 지표)
설명: 증가하는 작업부하에 대응해 허용 가능한 서버 용량 변화
측정: CPU의 수, GB 단위의 RAM 크기
예제: 최대 512코어, 512GB RAM
정의: 운용 장애로부터 회복하기 위한 능력 측정
Mean Time to SwitchOver (MTSO, Metric 전환을 위한 평균시간)
설명: 서버 실패에서 다른 지리적 영역의 복제된 인스턴스로 전환이 완료되기가 예상되는 시간
측정: (전환 완료 시간/날짜 – 실패 시간 /날짜) / 전체 실패 횟수
예제: 평균 10분
Mean Time System Recovery (MTSR, Metric 회복을 위한 평균시간)
설명: 시스템 실패로부터 완전히 회복하기까지 예상되는 시간
측정: (회복 시각/날짜 – 실패 시각/날짜) / 총 실패 횟수
빈도: 월간, 연간
예: 평균 120분