사내 대규모 데이터 레이크하우스 및 멀티 클러스터 인프라의 자원 효율화 관리를 위해 구축된 FinOps 마스터 거버넌스 리포트(res_usage_report_*.xlsx) 시스템 운영 설명서입니다.
본 설명서는 각 시트의 아키텍처적 목적과 수록된 핵심 지표(컬럼)의 수식 및 타노스(Thanos) 원천 데이터 매핑 관계를 명시하여, 추후 사내 원가 정산 정책 변경 시 가중치를 수정하거나 인프라 감사 자료로 즉시 활용하실 수 있도록 표준 가이드라인 형태로 작성되었습니다.
📊 FinOps 마스터 거버넌스 리포트 운영 명세서
1. 전사 자원 정산 표준 가중치 모델 (원가 산정 기준)
통합 사용량 및 낭비액 계산의 기반이 되는 전사 표준 인프라 도입 원가 비율 가중치(W) 정의입니다. (기본값 설정 원부)
- Wcpu (CPU Core-Hour 단가 계수):
1.0 (기준점)
- Wmem (Memory GB-Hour 단가 계수):
0.11 (연산 노드 스펙 비율 반영)
- Wpv (PV 스토리지 GB-Hour 단가 계수):
0.02 (NVMe 및 하드웨어 스토리지 풀 원가 반영)
2. 시트별 아키텍처 목적 및 컬럼 세부 명세
📂 시트 0. 전사종합요약 (Executive Dashboard)
- 목적: 경영진 및 인프라 통제관용 최고 레벨 대시보드입니다. 전사 인프라의 OOM 장애 총량, 누적 낭비량, 평균 효율성 평점 및 자원 분배 건전성 비율을 한눈에 조망합니다.
- 포함 시각화: 거버넌스 상태 스코어 도넛 차트(
chart6), 상위 15대 낭비 부서 파레토 차트(chart5)
- 주요 정보 블록:
- 정산 대상 인프라 도메인 / 분석 기간: 필터링된 하드웨어 그룹(COMPUTE/STORAGE) 및 KST 기준 타임라인 락 정보.
- 전사 자원 선점 낭비량 총합: CPU(Core-H), Memory(GB-H), PV 스토리지(GB-H)의 무효 선점 누적치.
📂 시트 1. 파레토분석_NS (Tenant Waste Pareto)
- 목적: 전사 자원 낭비의 80%를 유발하는 상위 20%의 악성 네임스페이스(부서/프로젝트)를 파레토 법칙에 의거하여 서열화하고 저격(Targeting)합니다.
- 컬럼 세부 명세:
- Namespace: K8s 격리 테넌트 실명.
- 실행시간 합계(분): 해당 네임스페이스 내 팟들이 살아 숨 쉰 총 시계열 샘플 카운트 분량 (
groupby.size()).
- 컨테이너 수: 관측 기간 내 가동된 유니크 컨테이너 인스턴스 총량.
- 할당 Core-H: 부서가 선점한 총 연산 용량. (∑Request Cores×시간)
- 낭비 Core-H (DataBar 적용): 할당량 중 실제 연산에 쓰이지 않고 버려진 누적 총량. (시각화 강조)
- 낭비 비중(%) / 누적 비중(%): 전사 총 낭비량 대비 해당 부서가 차지하는 지분율 및 누적 스코어.
- 등급: 누적 비중 기준 거버넌스 위험도 등급 (
Critical ≤20% / High ≤50% / Medium / Low).
📂 시트 1-2. 일단위NS사용량 (Daily Showback Matrix)
- 목적: [본 파이프라인의 핵심] 부서별 일단위 실제 리소스 점유 소모량과 사내 비용 청산(Chargeback)의 원천 근거가 되는 통합 사용량 점수를 일자별 롤업으로 제공합니다.
- 컬럼 세부 명세:
- 관측 일자(KST): 정산 대상 날짜 (
YYYY-MM-DD).
- 네임스페이스(Namespace): 비용 청구 대상 부서 계정.
- CPU 사용 / 할당 / 낭비 (Core-H): 일간 실제 P95 CPU 소모 시간 대 Request 예약 스펙 시간 및 손실액.
- Mem 사용 / 할당 (GB-H): 일간 Working Set 메모리 실소모 시간 대 Request 예약 스펙 공간.
- PV 사용 / 할당 (GB-H): 물리 볼륨(PVC) 디스크에 데이터가 실제 적재된 공간 시간 대 스케줄러 선점 디스크 풀 크기.
- 통합 사용량 점수 (Score) (DataBar 적용): 오픈코스트 글로벌 표준 가중합 모델로 도출된 부서별 최종 비용 지수 점수.
Score=(CPU 할당×1.0)+(Mem 할당×0.11)+(PV 할당×0.02)
📂 시트 2. CPU Request_Usage 분석 (Compute Efficiency Boxplot)
- 목적: 팟(Pod) 유닛 단위로 연산 자원 오버프로비저닝 심층 프로파일링을 수행합니다. (낭비량 상위 30% 커트라인 격리 수록)
- 포함 시각화: 워크로드별 평균 할당 대 실적 바 차트(
chart1), 활용률 분포 및 이상치(Outlier) 추적 박스플롯(chart9)
- 컬럼 세부 명세:
- CPU Request / Limit: 팟 배포 시 선점한 최소 보장 사양 및 최대 허용 상한 사양 (Cores).
- CPU P95: 1분 단위 수집 데이터 중 노이즈를 제거한 상위 95% 실제 연산 피크 실적 수치.
- Throttle Peak (스로틀링 피크):
container_cpu_cfs_throttled_periods_total 기반, Limit에 막혀 커널 단에서 연산이 강제로 지연(병목)된 시계열 최고 피크 레이트.
- 활용률(%) (ColorScale 적용):
[CPU P95 / CPU Request] * 100. (낮을수록 적색, 최적화 완수 시 녹색 변환)
- 낭비 Core-H: 가동 시간 동안 신청해놓고 쓰지 않아 버려진 무효 연산 시간 비용.
- 목적: 파일 I/O 캐시 착시 현상을 제거한 순수 물리 메모리 점유(RSS) 지표와 고비용 스토리지 PV의 유휴 알박기 상태를 입체적으로 교차 검증합니다.
- 포함 시각화: 기술 스택별 메모리 스펙 대 실소모 바 차트(
chart2), 워크로드별 스토리지 분위 분포 박스플롯(chart10)
- 컬럼 세부 명세:
- Mem Request / Mem P95: 예약 메모리 스펙 대비 Working Set(파일 캐시 포함 보수적 지표) 피크 점유량 (GB).
- Mem RSS:
container_memory_rss 메트릭 기반, 컨테이너 런타임이 커널 소켓에 정적으로 얹어놓은 순수 물리 메모리 실효 점유량 (GB).
- PV Cap (GB) / PV Used (GB): Kubelet이 측정한 Persistent Volume 공급 할당량 대 실제 컨테이너가 디스크에 쓰고 간 물리 데이터 적재량.
- PV Waste (GB-H): 대용량 Spark 배치나 분석을 위해 스토리지 풀을 과다하게 잡아놓고 방치한 시간 가중 손실량.
PV Waste=(PV Cap−PV Used P95)×60Minutes Running
📂 시트 4. 자원부족및OOM장애군 (Availability Risk Matrix)
- 목적: 단순 자원 회수 대상이 아닌, 용량 부족으로 인해 시스템이 강제 사살(
OOMKilled)되었거나 연산 지연 병목(Throttling)이 심각하여 즉시 스펙 업(Scale-Up)이 필요한 가용성 위험 컨테이너군을 격리 감시합니다.
- 컬럼 명세 및 트리거 조건:
- 상태 (Status):
💥 OOM장애발생 또는 ⚠️ Request부족 (빨간색 및 황색 하이라이트 강조)
- 트리거 가드 조건:
oom_event > 0 이거나, CPU Usage P95 - Request > 0.5 Cores 이거나, Throttle Peak > 0.2 인 코어 가용성 저하 전수 격리.
📂 시트 5. 리소스미설정위반군 (QoS Violation Blacklist)
- 목적: 쿠버네티스 스케줄러의 자원 예측 스케줄링을 방해하고 노드 내 이웃 팟에게 자원 잠식 피해(Noisy Neighbor)를 유발하는 Request/Limit 미설정 악성 배포 팟의 블랙리스트입니다.
- 컬럼 명세:
Request 미설정 / Limit 미설정 컬럼에 MISSING 플래그를 마킹하여, 해당 네임스페이스 배포 담당자에게 인프라 거버넌스 위반 감고 패널티 티켓(Jira)을 발행할 근거 데이터로 활용합니다.
📂 시트 6. 일별트렌드_KST (Consolidated Time-Series Area)
- 목적: 인프라 총량의 날짜별 소모 추이 시계열 데이터 롤업 장표입니다.
- 포함 시각화: 일별 CPU 낭비 누적 막대 차트(
chart3), 전사 자원 활용률 지형 히트맵(chart4)
- 특이 컬럼: PV 할당 GB-H / PV 낭비 GB-H가 일별 타임라인에 결합 누적되어 있어, 전사 스토리지 풀 인프라 증설 계획(Capacity Planning)의 통제 지표가 됩니다.
📂 시트 7. 워크로드별_심층분석 (Open-Source Architecture Assessment)
- 목적: 사내 분산 플랫폼 아키텍처팀을 위한 오픈소스 기술 스택별(Spark Executor, Airflow Worker, StarRocks BE 등) 인프라 비용 대 안정성 평점 시트입니다.
- 포함 시각화: 기술 스택별 거버넌스 건전성 분포 카운트 차트(
chart15), 자원 손실 교차 Bubble Scatter 맵(chart14)
- 분석 매트릭: 워크로드 도메인 단위로 평균 CPU, 순수 RSS 메모리, 평균 PV 할당 사양을 대조 정산하여 어떤 플랫폼 솔루션이 사내 인프라 원가를 가장 많이 소모하고 병목을 겪고 있는지 기술 아키텍처 진단을 집행합니다.
3. 리포트 유지보수 및 커스텀 가이드 (설명서 마감)
- 가중치 단가 수정 위치:
step2_pipeline.py 소스 코드 상단의 W_CPU, W_MEM, W_PV 상수 변수의 값을 사내 인프라 감가상각 원가 계산서에 맞춰 조정하면 1-2번 탭의 통합 청산 스코어가 자동 리밸런싱됩니다.
- 노드 명명 규칙 확장 위치: 사내 하드웨어 확장으로 새로운 호스트네임 컨벤션이 도입될 경우,
config.py 파일의 CLUSTER_NODE_PATTERNS 정규식 딕셔너리에 파이프 기호(|)로 접두사를 추가해 주는 것만으로 파이프라인 전체가 무결하게 자동 동기화됩니다.