twat

소시민A·2022년 6월 30일
0

요구사항 정의서 프로젝트명 : DS PaaS 플랫폼 구축 2차 프로젝트
업무명 : 통합운영플랫폼 구축
단계명 : 분석 활동명 : 요구사항 분석 작업명 : 요구사항 정의
문서번호: DKK8S_OP요구사항정의서

요구사항ID 단위업무 세부업무 일련번호 요구사항명 설명 요구사항 세부 개발 방향 요구사항 출처 우선순위 품질요건 검증기준 구분
RQ_OPM_0001 통합모니터링 아키텍쳐 K8S기반의 통합모니터링 환경 구성 1차 산출물 K8S 기본템플릿 또는 신규 템플릿을 이용해 K8S기반의 클러스터 구성 CentOS 7.9 Base 기준으로 VM Template 작업 (kubeSpray 기준)
RQ_OPM_0002 통합모니터링 아키텍쳐 멀티 클러스터 모니터링 멀티 클러스터의 메트릭데이터를 수집하고 모니터링하는 환경 제공 "멀티 클러스터의 메트릭데이터 수집 : Prometheus
Node들의 메트릭데이터 수집 : Node_exporter (Prometheus에서의 Pull 방식)
Microservice에서의 메트릭데이터 수집 : Prometheus
Prometheus 고가용성 제공 : Thanos Sidecar
Prometheus에서 만으로 멀티 클러스터 메트릭데이터 수집 및 그라파나에서의 Pull이 가능, 그러나 HA(High Availiabilty) 측면에서 고민1.
이에 대한 대응으로 Prometheus 서버를 2개를 두는 방안도 있음. 그러나 Pull형태의 방식은 그 시점을 스냅샷 찍어서 Metric data를 가져오기 때문에 두개의 서버의 데이터가 다를 가능성 존재.
또한 중복된 데이터 값 (Duplicated Data)이 많아지면 Redundant가 증가, 필요없는 데이터 용량이 늘어날 수 있다." 어떤 프로덕트를 쓰느냐에 따라 다른 포트개방이 필요함.
RQ_OPM_0003 통합모니터링 아키텍쳐 모니터링 정책 수립 모니터링 대상 및 범위를 설정 "Node의 CPU, Memory, I/O, Microservice, Service, Network
'모니터링하는 예시 상황
1. 특정 노드 다운 or Not ready
2. Control Plane의 주요 컴포넌트 상태가 비정상
3. 노드 가용 Resource < Request
4. 노드리소스가 부족해 컨테이너 크래쉬
5. 특정 컨테이너 OOM Killed
6. PV 할당된 파일 시스템이 용량이 부족한 경우"
RQ_OPM_0004 통합모니터링 아키텍쳐 모니터링 항목별 방안 수립 모니터링 대상(클러스터/노드/서비스/네트워크)등에 따른 모니터링항목을 결정하고, 수집방안을 제공
RQ_OPM_0005 통합모니터링 아키텍쳐 S3 API를 이용한 모니터링 데이터 보관 S3 API를 통해 Object Storage상에 모니터링 데이터(Long-Term 데이터 포함)를 보관할 수 있는 아키텍쳐 구성 사진 1
RQ_OPM_0006 통합모니터링 아키텍쳐 데이터 조회/분석의 효율화 신속하고 효율적으로 모니터링 데이터(Long-Term 데이터 포함)를 조회하고 분석할 수 있는 환경을 제공 Prometheus.io 공식 홈페이지에 Grafana 대시보드를 추천
RQ_OPM_0007 통합모니터링 대시보드 멀티 클러스터 통합 대시보드 구성 멀티 클러스터의 상태/성능을 한곳에서 모니터링할 수 있는 대시보드 제공 필요 Metric을 협의하여 Thanos - Grafana에 대시보드로 커스터마이징
RQ_OPM_0008 통합모니터링 대시보드 개별 클러스터 모니터링 대시보드 구성 개별 클러스터의 상태/성능을 모니터링할 수 있는 대시보드 제공 "필요 Metric을 협의하여 Thanos or Prometheus - Grafana에 대시보드로 커스터마이징
사진 2"
RQ_OPM_0009 통합모니터링 대시보드 AD 연동
통합모니터링 대시보드 유저권한관리
RQ_OPM_0010 통합모니터링 구축 통합운영 클러스터의 효율적인 자원 산정 (개발/운영) 모니터링/로그관리등의 운영서비스를 원할히 수행할 수 있는 클러스터 구축을 위한 자원산정하여 템플릿 작성
RQ_OPM_0011 통합모니터링 구축 기존 DKS 클러스터 모니터링 연계 기존 DKS 클러스터에 설치된 모니터링 시스템과 통합모니터링 체계와의 연계를 위해 추가 구성요소 제시/구성 변경 및 연계 구현
RQ_OPM_0012 통합모니터링 구축 신규 GPU기반 K8S 클러스터 모니터링 연계 GPU노드를 포함한 클러스터를 통합모니터링 체계와 연계를 위해 추가 구성요소 제시/구성 변경 및 연계 구현
RQ_OPM_0013 통합모니터링 구축 신규 OpenStack기반 K8S 클러스터 모니터링 연계 OpenStack기반 클러스터를 통합모니터링 체계와 연계를 위해 추가 구성요소 제시/구성 변경 및 연계 구현
RQ_OPM_0014 통합모니터링 구축 신규 Windows 컨테이너 K8S 쿨러스터 모니터링 연계 Windows 노드를 포함한 클러스터를 통합모니터링 체계와 연계를 위해 추가 구성요소 제시/구성 변경 및 연계 구현
RQ_OPM_0015 통합모니터링 구축 Alert/Notification 기능 (?) 사진 3
RQ_OPM_0016 통합모니터링 테스트 멀티클러스터 통합 모니터링 기능테스트 요청된 기능에 대한 구현여부에 대해 시나리오 작성 및 테스트 수행
RQ_OPM_0017 통합모니터링 테스트 멀티클러스터 통합 모니터링 가용성 테스트 모니터링 플렛폼의 가용성 테스트를 위한 시나리오 작성 및 테스트 수행

profile
계속해서 Blue를 이겨내가는 사람 / System Engineer / Server, OS, Storage, Network, Cloud / 이제 다시 코딩으로!!

0개의 댓글