아래는 Cloud Native Data Lakehouse / Air-gap / 대규모 K8s / Cilium / AIStor-MinIO / Longhorn / Keycloak / GitOps / Observability 환경 기준으로 공통적으로 갖춰야 할 SOP 항목 목록입니다.
장애 SOP가 거의 없다면, 우선은 “자주 발생 가능 + 영향도 큼 + 담당자 교체 시 위험” 기준으로 정비하는 게 좋습니다.
1. 공통 운영 SOP
1.1 일일 점검 SOP
| SOP 항목 | 주요 점검 내용 |
|---|
| 일일 시스템 상태 점검 | 클러스터 상태, 노드 Ready, Pod 상태, 주요 서비스 endpoint 상태 |
| K8s 노드 상태 점검 | NotReady, DiskPressure, MemoryPressure, PIDPressure, taint 이상 |
| 주요 Namespace 상태 점검 | kube-system, ingress, cilium, monitoring, storage, data platform namespace |
| 주요 Pod 재시작 점검 | restart count 증가, CrashLoopBackOff, OOMKilled |
| 이벤트 점검 | Warning 이벤트, FailedMount, FailedScheduling, Unhealthy, BackOff |
| 인증/인가 상태 점검 | Keycloak, LDAP 연동, token 발급, OIDC 로그인, service account 이상 |
| GitOps Sync 상태 점검 | ArgoCD OutOfSync, Degraded, Health 상태 |
| CI/CD 상태 점검 | Jenkins job 실패, 배포 pipeline 실패, Nexus/Git 접근 이상 |
| 모니터링 수집 상태 점검 | Prometheus scrape 실패, target down, Grafana datasource 이상 |
| 로그 수집 상태 점검 | Fluent Bit, OpenSearch ingest 지연, index 상태 |
| 스토리지 상태 점검 | AIStor/MinIO drive offline, Longhorn volume degraded, PVC Pending |
| 네트워크 상태 점검 | Cilium agent 상태, BGP session, DNS, ingress 상태 |
| 용량 점검 | AIStor 사용률, PV/PVC 사용률, 노드 디스크 사용률, OpenSearch index 용량 |
| 백업 상태 점검 | 백업 job 성공 여부, 백업 파일 생성 여부, retention 준수 |
1.2 주간/월간 점검 SOP
| SOP 항목 | 주요 점검 내용 |
|---|
| 주간 리소스 사용률 점검 | CPU, Memory, Disk, Network, Pod count 추세 |
| 주간 알람 리뷰 | 반복 알람, noise 알람, 미조치 알람 정리 |
| 주간 장애/이슈 리뷰 | 장애 ticket, 임시조치, 재발방지 필요 항목 |
| 월간 용량 예측 | AIStor, OpenSearch, PVC, DB, backup 저장소 증설 필요성 |
| 월간 보안 점검 | 계정, 권한, RoleBinding, Secret, 인증서 만료 |
| 월간 인증서 만료 점검 | Ingress TLS, mTLS, Keycloak cert, internal CA, service cert |
| 월간 백업 복구 리허설 | 실제 restore 가능 여부 검증 |
| 월간 GitOps drift 점검 | 수동 변경된 리소스 탐지 및 원복 |
| 월간 취약점/이미지 점검 | Air-gap registry image, base image, CVE 대응 현황 |
| 월간 SLO/SLA 리뷰 | 가용성, 장애시간, 성능저하, MTTR, error rate |
2. Kubernetes 공통 SOP
2.1 일반 운영 SOP
| SOP 항목 | 설명 |
|---|
| 노드 cordon/drain/uncordon 절차 | 유지보수, 디스크 교체, 커널 패치 전 필수 |
| 노드 재기동 절차 | 순차 재기동, workload 영향 확인, drain 예외 처리 |
| 노드 추가 절차 | 신규 compute/storage/common 노드 등록 |
| 노드 제거 절차 | workload 이관, storage 분리, cluster membership 제거 |
| Namespace 생성 절차 | 사용자/팀/서비스별 namespace 생성 기준 |
| ResourceQuota/LimitRange 설정 절차 | 사용자 sandbox, Airflow, Spark, Jupyter 리소스 제한 |
| ServiceAccount 생성 절차 | workload별 SA 생성, token, RBAC 연결 |
| RBAC 권한 부여 절차 | Role/ClusterRole/Binding 표준화 |
| Secret/ConfigMap 변경 절차 | 민감정보 관리, 재시작 필요 여부 |
| Deployment/StatefulSet 변경 절차 | replica, image, env, probe 변경 |
| HPA/VPA 설정 절차 | 자동 확장 기준, metric 확인 |
| PodDisruptionBudget 설정 절차 | drain 시 서비스 영향 방지 |
| Taint/Toleration 설정 절차 | compute/storage/common 노드 역할 분리 |
| Label/Annotation 관리 절차 | 운영 자동화, 비용/소유자/서비스 식별 |
| CRD 적용/삭제 절차 | operator 기반 서비스 변경 시 필수 |
| Helm chart 배포 절차 | values 관리, rollback, diff 확인 |
2.2 Kubernetes 장애 SOP
| 장애 SOP 항목 | 대표 증상 |
|---|
| Node NotReady 장애 대응 | 노드 Ready False, kubelet down |
| Node DiskPressure 대응 | eviction, pod pending, image pull 실패 |
| Node MemoryPressure 대응 | OOMKilled, pod eviction |
| Pod CrashLoopBackOff 대응 | 앱 기동 실패, 설정 오류, dependency 장애 |
| Pod Pending 대응 | 리소스 부족, taint 미일치, PVC pending |
| Pod OOMKilled 대응 | memory limit 초과 |
| ImagePullBackOff 대응 | registry 접근 불가, image 없음, pull secret 오류 |
| FailedScheduling 대응 | quota, affinity, nodeSelector, taint 문제 |
| FailedMount 대응 | PVC, CSI, Longhorn, Secret/ConfigMap mount 실패 |
| Readiness/Liveness Probe 실패 대응 | 앱 미기동, dependency timeout, probe 설정 오류 |
| Service endpoint 없음 대응 | selector 불일치, pod not ready |
| DNS 장애 대응 | CoreDNS 장애, upstream DNS, search domain 문제 |
| API Server 응답 지연 대응 | etcd/API 부하, webhook 지연 |
| Admission Webhook 장애 대응 | 배포 실패, timeout, cert 만료 |
| Evicted Pod 대량 발생 대응 | 노드 pressure, ephemeral-storage 부족 |
| Namespace Terminating 대응 | finalizer, CRD 삭제 문제 |
| PVC/PV Terminating 대응 | CSI finalizer, volume attachment 문제 |
3. Cilium / 네트워크 SOP
3.1 일반 운영 SOP
| SOP 항목 | 설명 |
|---|
| Cilium 상태 점검 절차 | cilium status, agent, operator, endpoint 확인 |
| Cilium BGP 상태 점검 절차 | BGP peer, route advertise, session flap 확인 |
| NetworkPolicy 변경 절차 | 정책 추가/수정/삭제, 영향 범위 확인 |
| L7/L4 정책 적용 절차 | 서비스 간 통신 제어 |
| Hubble 관측 절차 | flow 확인, drop reason 분석 |
| Ingress/LoadBalancer 변경 절차 | VIP, BGP advertisement, routing 확인 |
| Cluster Mesh 상태 점검 절차 | 멀티 클러스터 연결, identity sync 확인 |
| MTU 변경 절차 | 노드/터널/underlay 영향 검증 |
| Cilium 업그레이드 절차 | 사전 점검, rolling update, rollback |
| Cilium 설정 변경 절차 | ConfigMap, Helm values, agent 재시작 영향 |
3.2 네트워크 장애 SOP
| 장애 SOP 항목 | 대표 증상 |
|---|
| Pod 간 통신 장애 | 특정 namespace/service 간 연결 실패 |
| Service 접근 장애 | ClusterIP/NodePort/LB 접근 실패 |
| Ingress 접근 장애 | 404/503/504, TLS 오류 |
| DNS 질의 실패 | 서비스명 해석 실패 |
| Cilium Agent 장애 | endpoint programming 실패 |
| Cilium Operator 장애 | IPAM, identity, LB 관리 문제 |
| BGP session flap 대응 | 외부 접근 간헐 중단, VIP route 사라짐 |
| NetworkPolicy 오차단 대응 | 특정 앱만 통신 불가 |
| Cilium drop packet 분석 | Hubble drop, policy denied, CT issue |
| Conntrack table 고갈 대응 | connection reset, timeout 증가 |
| MTU 문제 대응 | 대용량 전송 실패, TLS handshake 실패 |
| LoadBalancer VIP 미광고 대응 | 외부 접속 불가 |
| Node 간 east-west traffic 지연 대응 | 특정 노드/랙 간 latency 증가 |
| mTLS/서비스 메시 통신 장애 | 인증서, policy, proxy 문제 |
4. Ingress / Gateway / 인증서 SOP
4.1 일반 운영 SOP
| SOP 항목 | 설명 |
|---|
| Ingress 생성/변경 절차 | host, path, backend service, TLS 설정 |
| TLS 인증서 발급/갱신 절차 | 내부 CA, cert-manager, secret 갱신 |
| Wildcard 인증서 관리 절차 | 공통 도메인 인증서 운영 |
| mTLS 설정 절차 | client cert 검증, trust bundle 관리 |
| NGINX/Ingress Controller 설정 변경 절차 | ConfigMap, annotation, reload 영향 |
| Ingress 대량 변경 절차 | 3000개 이상 ingress 환경에서 변경 순서 |
| 인증서 만료 점검 절차 | 만료 예정 cert 사전 알림 |
| Fake certificate 확인 절차 | default cert 반환 여부 점검 |
| WAF/보안 헤더 설정 절차 | 필요 시 header, rate limit, allow/deny |
4.2 장애 SOP
| 장애 SOP 항목 | 대표 증상 |
|---|
| TLS 인증서 오류 대응 | expired, unknown authority, fake cert |
| Ingress 404 대응 | host/path/backend 매핑 오류 |
| Ingress 502/503 대응 | backend pod/service endpoint 문제 |
| Ingress 504 대응 | backend timeout, network latency |
| NGINX reload 지연 대응 | ingress 대량 변경 후 반영 지연 |
| NGINX shared dict 부족 대응 | certificate cache full, LRU eviction |
| 인증서 Secret 누락 대응 | TLS secret not found |
| mTLS client 인증 실패 대응 | client cert, CA bundle, SAN 문제 |
| Rate limit 오동작 대응 | 정상 요청 차단 |
| 대량 Ingress 변경 후 장애 대응 | config reload, cache warming, fake cert 가능성 |
5. AIStor / MinIO Object Storage SOP
5.1 일반 운영 SOP
| SOP 항목 | 설명 |
|---|
| Bucket 생성 절차 | naming, owner, quota, policy, versioning 기준 |
| Prefix 정책 등록 절차 | 사용자/팀별 prefix 권한, ILM, quota 관리 |
| Bucket Policy 변경 절차 | read/write 권한 변경, 영향 검토 |
| Service Account 생성/폐기 절차 | access key 발급, 만료, 권한 제한 |
| STS/OIDC 연동 점검 절차 | Keycloak/LDAP 기반 인증 |
| Disk 상태 점검 절차 | drive offline, healing, smart 상태 |
| Pool/Set 상태 점검 절차 | EC set, parity, tolerance 확인 |
| Capacity 점검 절차 | usable, raw, bucket별 사용량 |
| Object 통계 수집 절차 | inventory API, parquet 저장, prefix별 후처리 |
| ILM 정책 생성/변경 절차 | hot/warm tier, prefix 기준 이동/삭제 |
| Replication 설정 절차 | bucket replication, versioning, failover 고려 |
| Versioning 설정 절차 | ILM/replication 영향 검토 |
| Lifecycle 삭제 정책 절차 | prefix별 retention, delete marker 처리 |
| Tier 추가 절차 | warm tier AIStor 추가, target 등록 |
| Scanner 설정 변경 절차 | 성능 영향, 운영 시간대 고려 |
| IAM refresh 점검 절차 | stale IAM, service account load 지연 확인 |
| Audit log 조회 절차 | 특정 object/prefix/client 요청 추적 |
| 성능 테스트 절차 | warp, s3bench, k6, fio, JMeter |
| 대량 객체 삭제 절차 | prefix 삭제, batch job, 성능 영향 |
| HDFS/NFS to S3 마이그레이션 절차 | 사전 검증, sync, checksum, cutover |
5.2 AIStor / MinIO 장애 SOP
| 장애 SOP 항목 | 대표 증상 |
|---|
| Drive offline 대응 | mc admin info에서 disk offline |
| Disk 교체 절차 | drain 여부, replace, heal 확인 |
| Healing 지연 대응 | heal backlog 증가, I/O 부하 |
| EC set read quorum error 대응 | 일부 객체 read 실패 |
| EC set write quorum error 대응 | PUT/DELETE 실패, 5xx 증가 |
| 전체 tolerance 급락 대응 | minio_cluster_erasure_set_write_tolerance 하락 |
| 특정 pod 5xx 증가 대응 | 특정 MinIO pod backend 문제 |
| 특정 bucket 4xx 급증 대응 | 404/403/Signature mismatch 분석 |
| HeadObject 404 대량 발생 대응 | 앱 로직 확인, audit log 분석 |
| IAM refresh 지연 대응 | service account/STS policy load 장시간 |
| STS 인증 실패 대응 | OIDC, LDAP, policy mapping 문제 |
| Signature V4 오류 대응 | client clock skew, key, region, canonical request |
| Bucket policy 오적용 대응 | 정상 사용자 접근 불가 |
| ILM 이동 실패 대응 | target tier 오류, versioning, lifecycle rule |
| Replication backlog 증가 대응 | target 장애, bandwidth, queue 확인 |
| Object lock/retention 오류 대응 | 삭제 실패, compliance 모드 |
| Multipart upload 잔여물 증가 대응 | incomplete multipart cleanup |
| Scanner 부하 대응 | 운영 중 latency 증가 |
| Inventory job 실패 대응 | parquet 생성 실패, schedule 문제 |
| Prefix 사용량 조회 불가 대응 | inventory 후처리 job 실패 |
| MinIO pod 재시작 대응 | EC set 영향, readiness 확인 |
| Warm tier 접근 장애 대응 | ILM 대상 tier read 실패 |
| 대량 Delete 후 성능 저하 대응 | scanner/heal/delete marker 영향 |
6. Longhorn / Block Storage SOP
6.1 일반 운영 SOP
| SOP 항목 | 설명 |
|---|
| Longhorn 상태 점검 절차 | manager, engine, replica, node 상태 |
| StorageClass 생성/변경 절차 | replica count, reclaim policy, expansion |
| PVC 생성/확장 절차 | workload별 PVC 요청 처리 |
| Volume snapshot 생성 절차 | 작업 전 snapshot 기준 |
| Backup 설정 절차 | backup target, schedule, retention |
| Volume restore 절차 | snapshot/backup 기반 복구 |
| Replica 재배치 절차 | 노드 유지보수 전 replica 위치 확인 |
| Node drain 전 Longhorn 점검 절차 | attached volume, replica health 확인 |
| Orphaned replica 정리 절차 | 불필요 replica 제거 |
| Longhorn 업그레이드 절차 | CRD, manager, engine image 변경 |
6.2 장애 SOP
| 장애 SOP 항목 | 대표 증상 |
|---|
| Volume degraded 대응 | replica 손실, rebuild 필요 |
| Volume faulted 대응 | workload I/O 중단 |
| Replica rebuild 지연 대응 | rebuild backlog, 네트워크/디스크 병목 |
| PVC Pending 대응 | volume provisioning 실패 |
| Volume attach 실패 대응 | attachment stuck, node 문제 |
| Volume detach 실패 대응 | workload 종료 후 detach 안 됨 |
| Node down으로 인한 volume 장애 | replica 부족, attachment 재조정 |
| Backup 실패 대응 | backup target 접근 불가 |
| Restore 실패 대응 | backup metadata, target 문제 |
| Engine crash 대응 | workload I/O 오류 |
| Snapshot 과다 대응 | 성능저하, 용량 증가 |
7. 인증 / 인가 / 보안 SOP
7.1 일반 운영 SOP
| SOP 항목 | 설명 |
|---|
| 사용자 온보딩 절차 | LDAP/Keycloak 계정, 그룹, namespace, 권한 부여 |
| 사용자 오프보딩 절차 | 계정 비활성화, token/key 회수, namespace 정리 |
| 그룹 권한 변경 절차 | LDAP group, Keycloak role, K8s RBAC, S3 policy |
| Keycloak client 생성 절차 | OIDC client, redirect URI, secret 관리 |
| Keycloak realm 설정 변경 절차 | 운영 영향 검토 |
| kubelogin/kubeconfig 발급 절차 | 사용자별 kubeconfig 자동 생성 |
| Service Account 발급 절차 | K8s SA, MinIO service account 구분 |
| Secret rotation 절차 | 앱 secret, access key, token 교체 |
| 인증서 rotation 절차 | CA, server cert, client cert |
| OPA/Gatekeeper 정책 변경 절차 | 정책 검증, dry-run, audit |
| mTLS trust bundle 갱신 절차 | 서비스 간 인증서 체인 갱신 |
| 관리자 권한 부여 절차 | break-glass, 승인, 기록 |
| 보안 예외 승인 절차 | 임시 권한, 만료일, 사후 회수 |
7.2 장애 SOP
| 장애 SOP 항목 | 대표 증상 |
|---|
| Keycloak 로그인 장애 | SSO 로그인 불가 |
| LDAP 연동 장애 | 사용자 인증 실패 |
| OIDC token 발급 실패 | 앱 로그인 불가 |
| Token 검증 실패 | invalid issuer, audience, JWKS 문제 |
| kubeconfig 로그인 실패 | kubelogin, OIDC, RBAC 문제 |
| RBAC 권한 부족 장애 | forbidden, cannot list/get/create |
| OPA 정책 오차단 | 배포/생성 요청 거부 |
| Secret 만료/오류 장애 | 앱 dependency 인증 실패 |
| 인증서 만료 장애 | TLS/mTLS handshake 실패 |
| MinIO STS 인증 장애 | S3 접근 실패 |
| 관리자 계정 잠김 대응 | break-glass 절차 필요 |
| 권한 과다 부여 발견 대응 | 감사, 회수, 영향 분석 |
8. GitOps / CI/CD / 형상관리 SOP
8.1 일반 운영 SOP
| SOP 항목 | 설명 |
|---|
| Git repository 구조 관리 절차 | app/env/cluster/base/overlay 구조 |
| Manifest 변경 요청 절차 | PR, 리뷰, 승인, 배포 |
| Jenkins CI 검증 절차 | YAML lint, Helm template, kubeconform, policy check |
| ArgoCD App 생성 절차 | app-of-apps, project, destination 설정 |
| ArgoCD Sync 절차 | auto/manual sync 기준 |
| ArgoCD Rollback 절차 | 이전 commit/tag로 원복 |
| Image 등록 절차 | Air-gap registry 반입, scan, 승인 |
| Nexus artifact 반입 절차 | 외부 artifact 검증 후 반입 |
| Helm chart 반입 절차 | vendor chart 검증, 내부 저장소 등록 |
| 배포 freeze 절차 | 야간/월말/장애기간 변경 금지 |
| Emergency change 절차 | 긴급 변경 승인, 사후 리뷰 |
| 환경변수/Secret 변경 절차 | 앱 재기동 필요성 확인 |
| 표준 템플릿 관리 절차 | Golden Path, namespace, RBAC, quota, app template |
| GitOps drift 복구 절차 | 수동 변경 탐지 후 Git 기준 원복 |
8.2 장애 SOP
| 장애 SOP 항목 | 대표 증상 |
|---|
| Jenkins pipeline 실패 대응 | lint/test/deploy 실패 |
| ArgoCD OutOfSync 대응 | Git과 cluster 상태 불일치 |
| ArgoCD Degraded 대응 | 배포 리소스 unhealthy |
| ArgoCD sync 실패 대응 | CRD 없음, 권한 부족, webhook 실패 |
| Helm rendering 실패 대응 | values 오류, template 오류 |
| Manifest validation 실패 대응 | API version 오류, schema 오류 |
| Image pull 실패 대응 | registry, tag, pull secret 문제 |
| Nexus 장애 대응 | dependency 다운로드 실패 |
| Git 서버 장애 대응 | 배포/변경 불가 |
| 잘못된 manifest 배포 대응 | rollback, revert, sync |
| 수동 변경 drift 대응 | 누가/무엇을 변경했는지 추적 |
| Air-gap artifact 누락 대응 | chart/image/package 없음 |
9. Observability / Logging SOP
9.1 일반 운영 SOP
| SOP 항목 | 설명 |
|---|
| Prometheus target 점검 절차 | scrape up/down, relabel 확인 |
| Alert rule 변경 절차 | 신규 알람 추가, threshold 조정 |
| Grafana dashboard 생성 절차 | 서비스별 표준 dashboard |
| Log pipeline 점검 절차 | Fluent Bit → OpenSearch 흐름 확인 |
| OpenSearch index lifecycle 관리 | rollover, retention, delete |
| 로그 검색 절차 | 장애 시 pod/node/request 기준 검색 |
| Metric 기반 장애 분석 절차 | Golden Signal, USE/RED 지표 |
| SLO/Error budget 관리 절차 | 주요 서비스 가용성 관리 |
| 알람 라우팅 관리 절차 | 담당팀, 심각도, 근무시간/비상연락 |
| Runbook link 관리 절차 | 알람별 SOP 연결 |
| 대시보드 표준화 절차 | 클러스터, 서비스, 스토리지, 네트워크별 |
| 장기 보관 로그 관리 절차 | 보안감사/장애분석용 retention |
9.2 장애 SOP
| 장애 SOP 항목 | 대표 증상 |
|---|
| Prometheus 수집 중단 대응 | target down, scrape timeout |
| Prometheus 용량 부족 대응 | TSDB full, compaction 실패 |
| Alertmanager 알림 미발송 대응 | route, receiver, silence 문제 |
| Grafana 접속 장애 대응 | datasource, auth, backend 문제 |
| Fluent Bit 로그 유실 대응 | buffer full, output error |
| OpenSearch ingest 지연 대응 | indexing latency, bulk reject |
| OpenSearch shard unassigned 대응 | yellow/red cluster |
| OpenSearch disk watermark 대응 | index read-only, write block |
| 로그 검색 불가 대응 | index pattern, permission, shard issue |
| Metric cardinality 폭증 대응 | Prometheus 부하, remote write 지연 |
| 알람 폭주 대응 | noise suppression, grouping, silence |
| Dashboard 데이터 누락 대응 | datasource, label, query 오류 |
10. Air-gap 환경 SOP
| SOP 항목 | 설명 |
|---|
| 외부 패키지 반입 절차 | 보안검토, 무결성 검증, 승인 |
| 컨테이너 이미지 반입 절차 | scan, SBOM, signature, 내부 registry push |
| Helm chart 반입 절차 | chart dependency 포함 여부 확인 |
| Python/Java 패키지 반입 절차 | PyPI/Maven dependency mirror |
| OS 패키지 반입 절차 | yum/apt repository mirror |
| Vendor 문서 반입 절차 | docs markdown화, Git 저장 |
| Patch bundle 반입 절차 | 보안 패치, 버전 호환성 검증 |
| 라이선스 검토 절차 | 오픈소스/상용 라이선스 확인 |
| 반입 파일 무결성 검증 절차 | checksum, signature 검증 |
| 내부 Nexus/Registry 동기화 절차 | 신규 artifact 등록 |
| Air-gap 업데이트 작업계획서 | 반입 → 검증 → 배포 → 롤백 |
| 반입 실패 대응 SOP | dependency 누락, checksum 불일치 |
| 폐쇄망 긴급 패치 SOP | CVE 대응, vendor hotfix 반입 |
11. 데이터 플랫폼 서비스 SOP
11.1 Spark SOP
| SOP 항목 | 설명 |
|---|
| Spark job 제출 절차 | namespace, SA, quota, queue 지정 |
| Spark executor resource 설정 절차 | CPU/memory/executor 수 기준 |
| Spark on K8s 장애 분석 절차 | driver/executor pod, event, log 확인 |
| Spark S3 접근 설정 절차 | endpoint, credential, path-style, TLS |
| Spark Iceberg catalog 설정 절차 | catalog, warehouse, metastore |
| Spark job 실패 대응 | OOM, shuffle, S3 timeout, permission |
| Spark 성능저하 대응 | executor 부족, skew, shuffle spill |
| Spark 대량 job 운영 SOP | Kueue/YuniKorn queue 관리 |
11.2 Trino / StarRocks / Impala SOP
| SOP 항목 | 설명 |
|---|
| Query engine 상태 점검 | coordinator/worker/FE/BE 상태 |
| Catalog/Connector 변경 절차 | Iceberg, Hive, S3 connector 설정 |
| Query 실패 분석 절차 | 권한, catalog, metadata, S3 접근 |
| Query 성능저하 대응 | 특정 쿼리, 특정 테이블, 특정 worker 병목 |
| Worker scale-out/in 절차 | 노드 추가/제거, rolling restart |
| Metadata cache refresh 절차 | Iceberg/Hive metadata 불일치 |
| 대량 쿼리 부하 대응 | queue, resource group, admission control |
| 사용자별 권한 적용 절차 | catalog/schema/table 권한 |
| Query kill 절차 | 장시간/과도한 리소스 사용 query 중단 |
| Engine 재시작 절차 | 영향 범위, 순차 재기동 |
11.3 Airflow SOP
| SOP 항목 | 설명 |
|---|
| DAG 배포 절차 | GitOps, validation, syntax check |
| DAG 실패 대응 | task log, retry, dependency, credential |
| Scheduler 상태 점검 | scheduling delay, heartbeat |
| Worker 상태 점검 | queue backlog, pod pending |
| Executor 설정 변경 절차 | KubernetesExecutor/CeleryExecutor 등 |
| Connection/Variable 변경 절차 | secret 연동, 권한 관리 |
| DAG 권한 관리 절차 | 사용자/팀별 DAG 접근 |
| 대량 DAG 운영 절차 | 2000명 사용자, namespace/SA 분리 |
| Airflow DB 백업/복구 절차 | metadata DB 보호 |
| Airflow upgrade 절차 | DB migration, plugin 호환성 |
11.4 JupyterLab / Sandbox SOP
| SOP 항목 | 설명 |
|---|
| 사용자 sandbox 생성 절차 | namespace, PVC, SA, quota |
| JupyterLab 기동 실패 대응 | pod pending, image pull, PVC mount |
| 사용자 권한 변경 절차 | namespace/RBAC/S3 policy |
| 개인 PVC 증설 절차 | 요청 승인, quota 확인 |
| 세션 종료/정리 절차 | idle timeout, 자원 회수 |
| 사용자 환경 이미지 변경 절차 | base image, package, security scan |
| Notebook S3 접근 장애 대응 | credential, endpoint, TLS |
| 사용자 오프보딩 정리 절차 | PVC, secret, service account, S3 prefix |
12. Scheduler / Queue / Multi-tenant SOP
| SOP 항목 | 설명 |
|---|
| Kueue Queue 생성 절차 | cohort, resource flavor, quota |
| YuniKorn Queue 생성 절차 | root/app queue, user/group quota |
| 사용자/팀별 quota 부여 절차 | CPU/memory/GPU/storage limit |
| Queue 우선순위 변경 절차 | 운영/긴급/배치 workload 우선순위 |
| Job Pending 대응 | quota 부족, queue admission 실패 |
| Queue starvation 대응 | 특정 팀 job 장기 대기 |
| Resource preemption 대응 | 우선순위에 따른 job 중단 |
| 대량 batch job 대응 | burst control, admission control |
| 특정 사용자 과다 사용 대응 | quota 조정, throttling |
| Scheduler 설정 변경 절차 | 영향도 검토, rollback |
| Fair sharing 점검 절차 | 사용자/팀별 리소스 사용량 분석 |
13. Backup / Restore / DR SOP
| SOP 항목 | 설명 |
|---|
| etcd 백업 절차 | snapshot 생성, 암호화, 보관 |
| etcd 복구 절차 | control plane 복구 |
| Git repository 백업 절차 | GitOps 원천 데이터 보호 |
| Keycloak 백업 절차 | realm, client, user federation 설정 |
| Keycloak 복구 절차 | 인증 서비스 복구 |
| ArgoCD 백업 절차 | app/project/repo credential |
| Jenkins 백업 절차 | job, credential, plugin, workspace 기준 |
| Prometheus 백업 절차 | rule, config, 장기 metric 필요 시 |
| Grafana 백업 절차 | dashboard, datasource |
| OpenSearch 백업 절차 | snapshot repository, index restore |
| Airflow DB 백업 절차 | DAG 이력, connection, variable |
| Longhorn volume backup 절차 | volume별 backup/restore |
| AIStor bucket replication/backup 절차 | 중요 bucket 보호 |
| DR 전환 절차 | 주요 서비스 복구 순서 |
| DR 모의훈련 절차 | 정기 restore test |
| 백업 무결성 검증 절차 | checksum, restore rehearsal |
| RPO/RTO 기준 관리 절차 | 서비스별 복구 목표 정의 |
14. 변경 작업계획서 표준 Case
작업계획서는 SOP보다 더 구체적으로 “이번 작업을 어떻게 할 것인가”에 초점을 둬야 합니다. 아래 case들은 표준 작업계획서 템플릿으로 만들어두는 게 좋습니다.
| 작업계획서 Case | 포함할 내용 |
|---|
| Kubernetes 노드 추가 | 대상 노드, 역할, label/taint, 검증 |
| Kubernetes 노드 제거 | drain, workload 이관, cluster 제거 |
| Kubernetes 노드 재기동 | 순서, 영향 서비스, rollback |
| OS/kernel 패치 | 사전 점검, drain, reboot, 검증 |
| Cilium 업그레이드 | 버전, 영향, BGP/network 확인 |
| Cilium 설정 변경 | 변경값, 영향, rollback |
| Ingress Controller 설정 변경 | reload 영향, TLS 검증 |
| 인증서 갱신 | 대상 cert, 만료일, 교체 방식 |
| Keycloak 설정 변경 | realm/client/role 변경 영향 |
| OPA 정책 변경 | dry-run, audit, 차단 영향 |
| ArgoCD app 추가/변경 | repo/path/revision/sync 정책 |
| Jenkins pipeline 변경 | 검증 단계, rollback |
| Registry/Nexus artifact 반입 | 파일 목록, checksum, scan 결과 |
| AIStor disk 교체 | 대상 disk, EC set, heal 확인 |
| AIStor bucket/policy 변경 | 대상 bucket, prefix, 권한 영향 |
| AIStor ILM 변경 | 대상 prefix, 이동/삭제 조건, 초기 처리 |
| AIStor tier 추가 | hot/warm target, replication/ILM 영향 |
| Longhorn volume 확장 | PVC, workload 영향, 검증 |
| OpenSearch index lifecycle 변경 | retention, rollover, delete 영향 |
| Airflow DAG 대량 배포 | validation, rollback, scheduler 영향 |
| Spark/Trino/StarRocks 설정 변경 | catalog, resource, endpoint 영향 |
| 사용자 sandbox 대량 생성 | namespace, quota, SA, PVC |
| DR 훈련 작업계획 | 복구 순서, 검증 기준, 중단 범위 |
| 대규모 점검 작업 | 작업 freeze, 알림, checkpoint, rollback |
15. 장애 SOP 우선순위 Top 30
장애 SOP가 거의 없다면 아래부터 먼저 만드는 것을 추천합니다.
| 우선순위 | 장애 SOP |
|---|
| 1 | K8s Node NotReady 대응 |
| 2 | Pod CrashLoopBackOff 대응 |
| 3 | Pod Pending / FailedScheduling 대응 |
| 4 | PVC Pending / FailedMount 대응 |
| 5 | Cilium BGP session flap 대응 |
| 6 | Pod 간 통신 장애 대응 |
| 7 | DNS 장애 대응 |
| 8 | Ingress 502/503/504 대응 |
| 9 | TLS 인증서 오류 대응 |
| 10 | Keycloak 로그인 장애 대응 |
| 11 | LDAP/OIDC 연동 장애 대응 |
| 12 | RBAC/OPA 오차단 대응 |
| 13 | AIStor drive offline 대응 |
| 14 | AIStor disk 교체 및 healing 대응 |
| 15 | AIStor read/write quorum error 대응 |
| 16 | AIStor 특정 pod 5xx 증가 대응 |
| 17 | AIStor IAM/STS 인증 장애 대응 |
| 18 | AIStor ILM/Replication 실패 대응 |
| 19 | Longhorn volume degraded/faulted 대응 |
| 20 | OpenSearch disk watermark / shard unassigned 대응 |
| 21 | Fluent Bit 로그 수집 장애 대응 |
| 22 | Prometheus target down / scrape 실패 대응 |
| 23 | Grafana datasource 장애 대응 |
| 24 | ArgoCD sync 실패 / degraded 대응 |
| 25 | Jenkins pipeline 실패 대응 |
| 26 | ImagePullBackOff / Registry 장애 대응 |
| 27 | Airflow DAG 실패 / scheduler 지연 대응 |
| 28 | Spark job 실패 / executor OOM 대응 |
| 29 | Trino/StarRocks query 성능저하 대응 |
| 30 | 대량 알람 폭주 / 장애상황 커뮤니케이션 SOP |
16. SOP 문서별 공통 목차
각 SOP는 아래 형식으로 통일하는 게 좋습니다.
1. 목적
2. 적용 범위
3. 담당 조직 / 담당자
4. 사전 조건
5. 영향도
6. 관련 시스템
7. 판단 기준
8. 절차
8.1 1차 확인
8.2 상세 확인
8.3 조치
8.4 복구 확인
9. 롤백 / 원복 절차
10. 장애 확대 기준
11. 커뮤니케이션 기준
12. 점검 명령어
13. 관련 대시보드
14. 관련 로그 위치
15. 관련 알람
16. 사후 조치
17. 변경 이력
장애 SOP는 여기에 아래 항목을 추가하는 것이 좋습니다.
- 증상
- 영향 범위
- 심각도 분류
- 즉시 완화 조치
- 근본 원인 분석 절차
- 재발 방지 항목
- 벤더 문의 시 첨부 자료
17. 실제 정비 순서 추천
처음부터 모든 SOP를 완벽히 만들기보다 아래 순서가 현실적입니다.
- 장애 대응 Top 30부터 작성
- 일일/주간/월간 점검 SOP 작성
- 변경 작업계획서 표준 템플릿 작성
- AIStor / Cilium / Keycloak / GitOps / Observability 중심으로 상세화
- 각 Alert에 SOP 링크 연결
- Git에 Markdown으로 저장
- OpenSearch/RAG/LLM Wiki에 인덱싱
- 장애 발생 후 Postmortem 결과를 SOP에 반영
특히 귀사 환경에서는 아래 5개 영역을 가장 먼저 정리하는 게 좋습니다.
1. AIStor / MinIO 장애 SOP
2. Cilium / Ingress / DNS 장애 SOP
3. 인증 / Keycloak / LDAP / OIDC 장애 SOP
4. GitOps / Jenkins / ArgoCD 변경 SOP
5. Observability / 로그 / 알람 기반 분석 SOP
이 5개가 정리되면, 운영자가 바뀌거나 야간 장애가 발생해도 “어디서부터 확인해야 하는지”가 훨씬 명확해집니다.