클라우드 컴퓨팅 [수업정리] - ③

아현·2021년 9월 27일
1

Cloud Computing

목록 보기
3/20

서비스 품질 지표와 SLA

(p.74)

  • 클라우드 서비스 사용 조건은 서비스 수준 합의서 (SLA)에 표현된다.

  • SLA는 클라우드 기반 서비스의 서비스 품질(QoS, Queality of Service) 특성이나 행동 양식, 제약 사항, 프로비저닝 등을 명시한 클라우드 제공자와 클라우드 소비자간 서비스 계약서다.

  • SLA는 가동시간, 보안 특성, 가용성, 신뢰성, 성능 등을 포함한 특정 서비스 품질 특성과 같은 IT 성과와 관련된 여러 측정 가능한 특성의 상세 내역을 제공한다.

  • SLA (Service Level Agreement, 서비스 수준 합의서)

    • 서비스 품질(QoS, Quality of Service) 기능과 보증 및 제한 사항을 설명하는 가독성 있는 문서, 즉 계약서

      • 클라우드는 모두 서비스로 제공되기 때문

1. SLA (Service Level Agreement) (p.441)


  • SLA는 협상과 계약서, 법적 의무, 런타임 지표 및 측정의 중점 사항이다.

  • 클라우드 제공자의 보증 내용을 공식화하고 가격 모델 및 지불 조건 등을 결정

  • SLA는 클라우드 소비자의 기대치를 설정하고 어떻게 기업이 클라우드 기반 IT 자원을 활용해 사업 자동화를 구축할 것인가에 필수적인 요소가 된다.


Service Quality Metrics (서비스 품질 지표)

-> 이를 이용하여 계약서 작성


  • Availability (가용성)

    • 가동 시간 (길수록 좋음), 가동 중단 시간 (짧을수록 좋음), 서비스 기간 (길수록 좋음) 등
  • Reliability (신뢰성)

    • 실패 최소 시간, 성공적인 응답 보장 비율 등
  • Performance (성능)

    • 용량, 응답 시간, 전달 시간 등
  • Scalability (확장성)

    • 용량 변동성, 응답성 보장
  • Resiliency (복원력/회복성)

    • 교체, 복구까지의 평균 시간

  • Service Quality Metrics 특징

    • 정량화 가능 (Quantifiable)

      • 수치화 한다. 100번 중 99번은 성공하였다 등
    • 반복 가능 (Repeatable)

      • 동일한 조건에서 반복했을 때 동일한 결과가 나와야 한다.
    • 비교 가능 (Comparable)

      • 측정 단위는 표준화되고 비교 가능해야 한다.
    • 획득 용이 (Easily Obtainable)

      • 측정 데이터를 수집하기 쉽고, 공통적인 측정 형식을 기반으로 해야 한다.



서비스 가용성 지표(Service Availability Metric)


  • Availability Rate Metric (가용율 지표)

    • 설명: 서비스 가동시간 백분율

      • IT 자원이 항상 이용 가능하면 100%의 가동 시간을 갖는 것이다.

      • 정지 시간의 합산을 고려하기에 개별 정지 시간에 대해서는 고려하지 않는다.

    • 측정: 총 가동시간 / 총 시간

    • 빈도: 주, 월, 연 단위

    • 예제: 최소 95% 가동시간

    • 아래로 갈수록 가용성과 서비스 품질이 증가하나 비용도 가파르게 증가한다.

  • Outage Duration Metric (가동 중단 기간 지표)

    • 설명: 단일 가동 중단 지속 기간

      • 최대 및 평균 연속 서비스 중단 수준 목표를 정의하는데 사용된다.

      • 개별 정지 시간의 길이에 대해서 고려

    • 측정: 가동 중단 일/시간 – 가동 시작 일/시간

    • 빈도: 이벤트 발생 시

    • 예제: 최대 1시간, 평균 15분



서비스 신뢰성 지표(Service Reliability Metric)


  • 정의: 주어진 환경에서 실패없이 IT자원이 의도된 기능을 수행하는 확률

    • 신뢰성은 서비스가 예상대로 수행되는 빈도에 초점을 맞추고 서비스는 이를 위해 작동 가능하고 사용 가능한 상태를 유지해야 한다.

  • Mean-Time between Failures (MTBF, 평균고장간격)

    • 설명: 연이은 서비스 실패 사이의 기대 시간

    • 측정: 정산적인 구동시간 / 실패 횟수

    • 빈도: 월, 연 단위

    • 예제: 평균 90일

      • 90일 마다 실패가 발생한다.

  • Reliability Rate Metric (신뢰율 지표)

    • 설명: 주어진 조건으로 성공적인 서비스 결과의 백분율

      • 가동 시간 동안 발생하는 치명적이지 않은 오류 및 장애의 영향을 측정
    • 측정: 총 성공 응답 횟수 / 총 요청 횟수

    • 빈도: 주, 월, 연 단위

    • 예제: 최소 99.5%

      • 100개 중에 99.5개는 제대로 된 결과가 제공된다.



서비스 성능 지표(Service Performance Metric)


  • 정의: IT 자원이 예상되는 매개 변수 내에서 기능을 수행할 수 있는 능력 측정

  • Network Capacity Metric (네트워크 용량 지표)

    • 설명: 네트워크 용량의 측정 가능한 특징

    • 측정: 대역폭 / 초당 비트 처리량

      • 대역폭은 bandwidth로 이론적인 최대 전송가능한 비트 수

        • 100Mbps: 초당 100Mb를 전송할 수 있다.
      • 처리량은 throughput로 실제로 전송되는 비트 수

        • 100Mbps로 설치했으나 여러 요인으로 인하여 실제는 90Mbps만 전송되었다.
    • 예제: 초당 10MB


  • Storage Device Capacity Metric (스토리지 장치 용량 지표)

    • 설명: 스토리지 장치 용량의 측정 가능한 특징

    • 측정: GB 단위의 스토리지 크기

    • 예제: 80GB 스토리지


  • Server Capacity Metric (서버 용량 지표)

    • 설명: 서버 용량의 측정 가능한 특징

    • 측정: CPU개수 , GHz단위의 CPU 주파수, GB 단위의 RAM 크기, GB단위의 스토리지 크기

    • 예제: 1.8GHz의 1Core CPU, 16GB RAM, 80GB 스토리지


  • Web Application Metric (웹 어플리케이션 용량 지표)

    • 설명: 웹 어플리케이션 용량의 측정 가능한 특징

      • 웹에서 가장 중요한 것은 순간 접속자의 수
    • 측정: 분당 요청률

    • 예제: 분당 최대 100,000건의 요청


  • Instance Starting Time Metric (인스턴스 시작시간 지표)

    • 설명: 새 인스턴스를 초기화하는데 필요한 시간

      • 인스턴스는 프로세스(실행 중인 프로그램)와 유사한 개념으로 생각하면 된다.
    • 측정: 인스턴스 활성화 시각/날짜 – 인스턴스 시작 요청 시각/날짜

    • 예제: 최장5분, 평균3분


  • Response Time Metric (응답시간 지표)

    • 설명: 동기적 동작 수행시 필요한 시간

    • 측정: (요청 시각/날짜 – 응답 시각/날짜)/총 요청 횟수

    • 예제: 평균5ms


  • Completion Time Metric (완료 시간 지표)

    • 설명: 비동기적 작업을 완료하는 데 필요한 시간

    • 측정: (요청 날짜 – 응답 날짜) / 총 요청 횟수

    • 예제: 평균 1초

    • 동기적(Synchronous) : 어떤 작업을 요청했을 때 그 작업이 종료될 때까지 기다린 후 다음(다른) 작업을 수행하는 방식

    • 비동기적(Asynchronous) : 어떤 작업을 요청했을 때 그 작업이 종료될 때까지 기다리지 않고 다른 작업을 하고 있다가, 요청했던 작업이 종료되면 그에 대한 추가 작업을 수행하는 방식



서비스 확장성 지표(Service Scalability Metric)


  • IT 자원의 탄력성과 관련이 있으며 작업 부하 변동성에 대한 수용력의 측정과 IT 자원이 도달할 수 있는 최대 용량과 관계가 있다

  • Storage Scalability (Horizontal) Metric (스토리지 확장성(수평적)지표)

    • 설명: 증가하는 작업부하에 대응해 허용 가능한 스토리지 장치 용량 변화

    • 측정: GB 단위의 스토리지 크기

    • 예제: 최대 1,000GB

      • 최대 1000GB까지 늘릴 수 있는데 이건 얼마, 100GB까지 늘릴 수 있는데 이건 얼마로 과금 형식

  • Server Scalability (Horizontal) Metric (서버 확장성(수평적) 지표)

    • 설명: 증가하는 작업부하에 대응해 허용 가능한 서버 용량 변화

    • 측정: 자원 풀 내의 가상 서버 수

    • 예제: 최소 가상 서버 1대, 최대 가상 서버 10대


  • Server Scalability (Vertical) Metric (서버 확장성(수직적) 지표)

    • 설명: 증가하는 작업부하에 대응해 허용 가능한 서버 용량 변화

    • 측정: CPU의 수, GB 단위의 RAM 크기

    • 예제: 최대 512코어, 512GB RAM



서비스 복원력 지표(Service Resiliency Metric)


  • 정의: 운용 장애로부터 회복하기 위한 능력 측정

    • 복원력이 SLA 복원력 보증 내에서 또는 해당 보증과 관련해서 설명될 때, 다양한 물리적 재난에 대한 중복 구현 및 리소스 복제는 물론 다양한 재난 복구 시스템을 기반으로 한다.

  • Mean Time to SwitchOver (MTSO, Metric 전환을 위한 평균시간)

    • 설명: 서버 실패에서 다른 지리적 영역의 복제된 인스턴스로 전환이 완료되기가 예상되는 시간

    • 측정: (전환 완료 시간/날짜 – 실패 시간 /날짜) / 전체 실패 횟수

    • 예제: 평균 10분


  • Mean Time System Recovery (MTSR, Metric 회복을 위한 평균시간)

    • 설명: 시스템 실패로부터 완전히 회복하기까지 예상되는 시간

    • 측정: (회복 시각/날짜 – 실패 시각/날짜) / 총 실패 횟수

    • 빈도: 월간, 연간

    • 예: 평균 120분



profile
For the sake of someone who studies computer science

0개의 댓글