사내 대규모 멀티 클러스터 환경(500~1,000+ 노드)과 대형 데이터 플랫폼(Spark, StarRocks, MinIO AIStor)의 특성을 고려할 때, 현재 수집 중인 기본 7종 메트릭은 팟(Pod) 단위의 단편적인 리소스 누수 규명에는 훌륭한 기초 원부가 됩니다.
그러나 언급하신 "적절한 자원 분배(Request/Limit 구조화)를 통한 자원 사용 효율화(CPU, Memory, PV)"라는 고도화된 관리 목적을 완벽히 달성하기 위해서는 데이터 레이크하우스 인프라에 특화된 4개 도메인의 핵심 메트릭을 타노스(Thanos)로부터 추가 징수해야 합니다.
추가 수집해야 할 메트릭 명세와 이를 통해 도출할 수 있는 최고 수준의 FinOps 거버넌스 인사이트를 브리핑합니다.
현재 파이프라인은 CPU와 메모리만 정산하고 있어, 데이터 플랫폼에서 가장 비용 비중이 크고 파편화되기 쉬운 물리 스토리지 자원(Block/File Storage)의 알박기 현상을 감시하지 못하고 있습니다.
kubelet_volume_stats_capacity_bytes: 팟에 할당된 PV의 총 공급 스펙 크기kubelet_volume_stats_used_bytes: 컨테이너가 해당 PV 내부 디스크에 실제 적재한 물리 데이터 용량1TB 규격의 PV를 Request로 선점해 놓고 실제로는 20GB만 쓴 채 방치된 팟들을 완벽하게 실명 저격할 수 있습니다.[실제 사용량 / 할당 용량] 비율 추이를 4번 탭(위반군)에 결합하여 "PV 할당량 80% 이상이 유휴 자원이므로 차기 배포 시 PVC 스펙을 200GB로 스케일 다운하십시오"라는 고부하 스토리지 회수 티켓(Jira)을 발행할 수 있습니다.현재 수집 중인 cpu_usage_p95 지표만 보면 팟이 자원을 잘 쓰고 있는 것처럼 보이지만, 실제로는 CPU 상한선(Limit)에 턱밑까지 걸려 커널에 의해 연산 속도가 강제로 억제(Throttling)되는 장애 직전 상태인지 판별할 수 없습니다.
container_cpu_cfs_throttled_periods_total: CPU Limit 규격에 막혀 커널 단에서 컨테이너의 연산 주기가 가두리 양식장처럼 갇혀버린 누적 횟수(Periods)과다할당)에 찍혔더라도, 배치가 돌 때 특정 시점마다 스로틀링(Throttling) 카운트가 폭발하고 있다면 이는 Request를 줄여서는 안 되는 "성능 병목 상태의 가용성 위험 워크로드"입니다.0을 유지하는 임계 지점까지가 플랫폼팀이 허용할 수 있는 최대 비용 절감 마진선이 됩니다.현재 수집 중인 container_memory_working_set_bytes는 OS가 임시로 잡고 있는 페이지 캐시(Page Cache)까지 모두 포함한 다소 보수적인 수치입니다. 대규모 데이터 레이크하우스 환경에서는 이로 인해 가짜 메모리 누수 착시 현상이 심하게 발생합니다.
container_memory_rss: 컨테이너 런타임이 프로세스 구동을 위해 메모리 소켓에 정말 정적으로 얹어놓은 순수 물리 메모리 점유량 (Resident Set Size)개별 컨테이너 팟의 자원 상태만 묶어서 정산하면, 그 팟들이 모여서 베어메탈 물리 서버(Node)를 얼마나 위태롭게 잠식하고 있는지의 인프라 총량 거버넌스를 놓치게 됩니다.
kube_node_status_allocatable: 물리 노드가 K8s 스케줄러에게 공급할 수 있는 실제 유효 자원 명세 수치 (CPU Cores / Memory Bytes)[노드 내 모든 Pod의 Request 합산 / Node Allocatable 자원] 배율을 데일리 추이로 정산하여, "현재 특정 인프라 존의 CPU 오버커밋 배율이 위험선인 2.5배를 초과했으니 신규 대형 Spark 배치 템플릿의 진입을 차단(Admission Denied)해야 한다"는 클러스터 용량 계획(Capacity Planning)의 통제관 인사이트를 획득하게 됩니다.위 4가지 도메인 메트릭을 매일 아침 크론잡 파이프라인에 추가 적재할 경우, 최종 산출물 엑셀(res_usage_*.xlsx)에 다음과 같은 완벽한 전사 인프라 거버넌스 대시보드가 완공됩니다.
이 구조가 정립되어야만 단순 비용 절감을 넘어 "인프라 성능 안정성 보장"과 "물리 스토리지 자원 회수 무결성"을 동시에 달성하는 진정한 엔터프라이즈급 플랫폼 FinOps 체계가 완성됩니다.