클라우드 컴퓨팅 [수업정리] - ③

아현·2021년 9월 27일

Cloud Computing

목록 보기

3/22

서비스 품질 지표와 SLA

(p.74)

클라우드 서비스 사용 조건은 서비스 수준 합의서 (SLA)에 표현된다.

SLA는 클라우드 기반 서비스의 서비스 품질(QoS, Queality of Service) 특성이나 행동 양식, 제약 사항, 프로비저닝 등을 명시한 클라우드 제공자와 클라우드 소비자간 서비스 계약서다.

SLA는 가동시간, 보안 특성, 가용성, 신뢰성, 성능 등을 포함한 특정 서비스 품질 특성과 같은 IT 성과와 관련된 여러 측정 가능한 특성의 상세 내역을 제공한다.

SLA (Service Level Agreement, 서비스 수준 합의서)
- 서비스 품질(QoS, Quality of Service) 기능과 보증 및 제한 사항을 설명하는 가독성 있는 문서, 즉 계약서
  - 클라우드는 모두 서비스로 제공되기 때문

1. SLA (Service Level Agreement) (p.441)

SLA는 협상과 계약서, 법적 의무, 런타임 지표 및 측정의 중점 사항이다.
클라우드 제공자의 보증 내용을 공식화하고 가격 모델 및 지불 조건 등을 결정
SLA는 클라우드 소비자의 기대치를 설정하고 어떻게 기업이 클라우드 기반 IT 자원을 활용해 사업 자동화를 구축할 것인가에 필수적인 요소가 된다.

Service Quality Metrics (서비스 품질 지표)

-> 이를 이용하여 계약서 작성

Availability (가용성)
- 가동 시간 (길수록 좋음), 가동 중단 시간 (짧을수록 좋음), 서비스 기간 (길수록 좋음) 등
Reliability (신뢰성)
- 실패 최소 시간, 성공적인 응답 보장 비율 등
Performance (성능)
- 용량, 응답 시간, 전달 시간 등
Scalability (확장성)
- 용량 변동성, 응답성 보장
Resiliency (복원력/회복성)
- 교체, 복구까지의 평균 시간

Service Quality Metrics 특징
- 정량화 가능 (Quantifiable)
  - 수치화 한다. 100번 중 99번은 성공하였다 등
- 반복 가능 (Repeatable)
  - 동일한 조건에서 반복했을 때 동일한 결과가 나와야 한다.
- 비교 가능 (Comparable)
  - 측정 단위는 표준화되고 비교 가능해야 한다.
- 획득 용이 (Easily Obtainable)
  - 측정 데이터를 수집하기 쉽고, 공통적인 측정 형식을 기반으로 해야 한다.

서비스 가용성 지표(Service Availability Metric)

Availability Rate Metric (가용율 지표)
- 설명: 서비스 가동시간 백분율
  - IT 자원이 항상 이용 가능하면 100%의 가동 시간을 갖는 것이다.
  - 정지 시간의 합산을 고려하기에 개별 정지 시간에 대해서는 고려하지 않는다.
- 측정: 총 가동시간 / 총 시간
- 빈도: 주, 월, 연 단위
- 예제: 최소 95% 가동시간
- 아래로 갈수록 가용성과 서비스 품질이 증가하나 비용도 가파르게 증가한다.

Outage Duration Metric (가동 중단 기간 지표)
- 설명: 단일 가동 중단 지속 기간
  - 최대 및 평균 연속 서비스 중단 수준 목표를 정의하는데 사용된다.
  - 개별 정지 시간의 길이에 대해서 고려
- 측정: 가동 중단 일/시간 – 가동 시작 일/시간
- 빈도: 이벤트 발생 시
- 예제: 최대 1시간, 평균 15분

서비스 신뢰성 지표(Service Reliability Metric)

정의: 주어진 환경에서 실패없이 IT자원이 의도된 기능을 수행하는 확률
- 신뢰성은 서비스가 예상대로 수행되는 빈도에 초점을 맞추고 서비스는 이를 위해 작동 가능하고 사용 가능한 상태를 유지해야 한다.

Mean-Time between Failures (MTBF, 평균고장간격)
- 설명: 연이은 서비스 실패 사이의 기대 시간
- 측정: 정산적인 구동시간 / 실패 횟수
- 빈도: 월, 연 단위
- 예제: 평균 90일
  - 90일 마다 실패가 발생한다.

Reliability Rate Metric (신뢰율 지표)
- 설명: 주어진 조건으로 성공적인 서비스 결과의 백분율
  - 가동 시간 동안 발생하는 치명적이지 않은 오류 및 장애의 영향을 측정
- 측정: 총 성공 응답 횟수 / 총 요청 횟수
- 빈도: 주, 월, 연 단위
- 예제: 최소 99.5%
  - 100개 중에 99.5개는 제대로 된 결과가 제공된다.

서비스 성능 지표(Service Performance Metric)

정의: IT 자원이 예상되는 매개 변수 내에서 기능을 수행할 수 있는 능력 측정

Network Capacity Metric (네트워크 용량 지표)
- 설명: 네트워크 용량의 측정 가능한 특징
- 측정: 대역폭 / 초당 비트 처리량
  - 대역폭은 bandwidth로 이론적인 최대 전송가능한 비트 수
    - 100Mbps: 초당 100Mb를 전송할 수 있다.
  - 처리량은 throughput로 실제로 전송되는 비트 수
    - 100Mbps로 설치했으나 여러 요인으로 인하여 실제는 90Mbps만 전송되었다.
- 예제: 초당 10MB

Storage Device Capacity Metric (스토리지 장치 용량 지표)
- 설명: 스토리지 장치 용량의 측정 가능한 특징
- 측정: GB 단위의 스토리지 크기
- 예제: 80GB 스토리지

Server Capacity Metric (서버 용량 지표)
- 설명: 서버 용량의 측정 가능한 특징
- 측정: CPU개수 , GHz단위의 CPU 주파수, GB 단위의 RAM 크기, GB단위의 스토리지 크기
- 예제: 1.8GHz의 1Core CPU, 16GB RAM, 80GB 스토리지

Web Application Metric (웹 어플리케이션 용량 지표)
- 설명: 웹 어플리케이션 용량의 측정 가능한 특징
  - 웹에서 가장 중요한 것은 순간 접속자의 수
- 측정: 분당 요청률
- 예제: 분당 최대 100,000건의 요청

Instance Starting Time Metric (인스턴스 시작시간 지표)
- 설명: 새 인스턴스를 초기화하는데 필요한 시간
  - 인스턴스는 프로세스(실행 중인 프로그램)와 유사한 개념으로 생각하면 된다.
- 측정: 인스턴스 활성화 시각/날짜 – 인스턴스 시작 요청 시각/날짜
- 예제: 최장5분, 평균3분

Response Time Metric (응답시간 지표)
- 설명: 동기적 동작 수행시 필요한 시간
- 측정: (요청 시각/날짜 – 응답 시각/날짜)/총 요청 횟수
- 예제: 평균5ms

Completion Time Metric (완료 시간 지표)
- 설명: 비동기적 작업을 완료하는 데 필요한 시간
- 측정: (요청 날짜 – 응답 날짜) / 총 요청 횟수
- 예제: 평균 1초
- 동기적(Synchronous) : 어떤 작업을 요청했을 때 그 작업이 종료될 때까지 기다린 후 다음(다른) 작업을 수행하는 방식
- 비동기적(Asynchronous) : 어떤 작업을 요청했을 때 그 작업이 종료될 때까지 기다리지 않고 다른 작업을 하고 있다가, 요청했던 작업이 종료되면 그에 대한 추가 작업을 수행하는 방식

서비스 확장성 지표(Service Scalability Metric)

IT 자원의 탄력성과 관련이 있으며 작업 부하 변동성에 대한 수용력의 측정과 IT 자원이 도달할 수 있는 최대 용량과 관계가 있다

Storage Scalability (Horizontal) Metric (스토리지 확장성(수평적)지표)
- 설명: 증가하는 작업부하에 대응해 허용 가능한 스토리지 장치 용량 변화
- 측정: GB 단위의 스토리지 크기
- 예제: 최대 1,000GB
  - 최대 1000GB까지 늘릴 수 있는데 이건 얼마, 100GB까지 늘릴 수 있는데 이건 얼마로 과금 형식

Server Scalability (Horizontal) Metric (서버 확장성(수평적) 지표)
- 설명: 증가하는 작업부하에 대응해 허용 가능한 서버 용량 변화
- 측정: 자원 풀 내의 가상 서버 수
- 예제: 최소 가상 서버 1대, 최대 가상 서버 10대

Server Scalability (Vertical) Metric (서버 확장성(수직적) 지표)
- 설명: 증가하는 작업부하에 대응해 허용 가능한 서버 용량 변화
- 측정: CPU의 수, GB 단위의 RAM 크기
- 예제: 최대 512코어, 512GB RAM

서비스 복원력 지표(Service Resiliency Metric)

정의: 운용 장애로부터 회복하기 위한 능력 측정
- 복원력이 SLA 복원력 보증 내에서 또는 해당 보증과 관련해서 설명될 때, 다양한 물리적 재난에 대한 중복 구현 및 리소스 복제는 물론 다양한 재난 복구 시스템을 기반으로 한다.

Mean Time to SwitchOver (MTSO, Metric 전환을 위한 평균시간)
- 설명: 서버 실패에서 다른 지리적 영역의 복제된 인스턴스로 전환이 완료되기가 예상되는 시간
- 측정: (전환 완료 시간/날짜 – 실패 시간 /날짜) / 전체 실패 횟수
- 예제: 평균 10분

Mean Time System Recovery (MTSR, Metric 회복을 위한 평균시간)
- 설명: 시스템 실패로부터 완전히 회복하기까지 예상되는 시간
- 측정: (회복 시각/날짜 – 실패 시각/날짜) / 총 실패 횟수
- 빈도: 월간, 연간
- 예: 평균 120분

아현

For the sake of someone who studies computer science

이전 포스트

클라우드 컴퓨팅 [수업정리] - ②

다음 포스트

클라우드 컴퓨팅 [수업정리] - ③

Cloud Computing

서비스 품질 지표와 SLA

1. SLA (Service Level Agreement) (p.441)

Service Quality Metrics (서비스 품질 지표)

서비스 가용성 지표(Service Availability Metric)

서비스 신뢰성 지표(Service Reliability Metric)

서비스 성능 지표(Service Performance Metric)

서비스 확장성 지표(Service Scalability Metric)

서비스 복원력 지표(Service Resiliency Metric)

클라우드 컴퓨팅 [수업정리] - ②

클라우드 컴퓨팅 [수업정리] - ④

0개의 댓글