26M19a

Young-Kyoo Kim·2026년 5월 18일

아래는 Cloud Native Data Lakehouse / Air-gap / 대규모 K8s / Cilium / AIStor-MinIO / Longhorn / Keycloak / GitOps / Observability 환경 기준으로 공통적으로 갖춰야 할 SOP 항목 목록입니다.

장애 SOP가 거의 없다면, 우선은 “자주 발생 가능 + 영향도 큼 + 담당자 교체 시 위험” 기준으로 정비하는 게 좋습니다.


1. 공통 운영 SOP

1.1 일일 점검 SOP

SOP 항목주요 점검 내용
일일 시스템 상태 점검클러스터 상태, 노드 Ready, Pod 상태, 주요 서비스 endpoint 상태
K8s 노드 상태 점검NotReady, DiskPressure, MemoryPressure, PIDPressure, taint 이상
주요 Namespace 상태 점검kube-system, ingress, cilium, monitoring, storage, data platform namespace
주요 Pod 재시작 점검restart count 증가, CrashLoopBackOff, OOMKilled
이벤트 점검Warning 이벤트, FailedMount, FailedScheduling, Unhealthy, BackOff
인증/인가 상태 점검Keycloak, LDAP 연동, token 발급, OIDC 로그인, service account 이상
GitOps Sync 상태 점검ArgoCD OutOfSync, Degraded, Health 상태
CI/CD 상태 점검Jenkins job 실패, 배포 pipeline 실패, Nexus/Git 접근 이상
모니터링 수집 상태 점검Prometheus scrape 실패, target down, Grafana datasource 이상
로그 수집 상태 점검Fluent Bit, OpenSearch ingest 지연, index 상태
스토리지 상태 점검AIStor/MinIO drive offline, Longhorn volume degraded, PVC Pending
네트워크 상태 점검Cilium agent 상태, BGP session, DNS, ingress 상태
용량 점검AIStor 사용률, PV/PVC 사용률, 노드 디스크 사용률, OpenSearch index 용량
백업 상태 점검백업 job 성공 여부, 백업 파일 생성 여부, retention 준수

1.2 주간/월간 점검 SOP

SOP 항목주요 점검 내용
주간 리소스 사용률 점검CPU, Memory, Disk, Network, Pod count 추세
주간 알람 리뷰반복 알람, noise 알람, 미조치 알람 정리
주간 장애/이슈 리뷰장애 ticket, 임시조치, 재발방지 필요 항목
월간 용량 예측AIStor, OpenSearch, PVC, DB, backup 저장소 증설 필요성
월간 보안 점검계정, 권한, RoleBinding, Secret, 인증서 만료
월간 인증서 만료 점검Ingress TLS, mTLS, Keycloak cert, internal CA, service cert
월간 백업 복구 리허설실제 restore 가능 여부 검증
월간 GitOps drift 점검수동 변경된 리소스 탐지 및 원복
월간 취약점/이미지 점검Air-gap registry image, base image, CVE 대응 현황
월간 SLO/SLA 리뷰가용성, 장애시간, 성능저하, MTTR, error rate

2. Kubernetes 공통 SOP

2.1 일반 운영 SOP

SOP 항목설명
노드 cordon/drain/uncordon 절차유지보수, 디스크 교체, 커널 패치 전 필수
노드 재기동 절차순차 재기동, workload 영향 확인, drain 예외 처리
노드 추가 절차신규 compute/storage/common 노드 등록
노드 제거 절차workload 이관, storage 분리, cluster membership 제거
Namespace 생성 절차사용자/팀/서비스별 namespace 생성 기준
ResourceQuota/LimitRange 설정 절차사용자 sandbox, Airflow, Spark, Jupyter 리소스 제한
ServiceAccount 생성 절차workload별 SA 생성, token, RBAC 연결
RBAC 권한 부여 절차Role/ClusterRole/Binding 표준화
Secret/ConfigMap 변경 절차민감정보 관리, 재시작 필요 여부
Deployment/StatefulSet 변경 절차replica, image, env, probe 변경
HPA/VPA 설정 절차자동 확장 기준, metric 확인
PodDisruptionBudget 설정 절차drain 시 서비스 영향 방지
Taint/Toleration 설정 절차compute/storage/common 노드 역할 분리
Label/Annotation 관리 절차운영 자동화, 비용/소유자/서비스 식별
CRD 적용/삭제 절차operator 기반 서비스 변경 시 필수
Helm chart 배포 절차values 관리, rollback, diff 확인

2.2 Kubernetes 장애 SOP

장애 SOP 항목대표 증상
Node NotReady 장애 대응노드 Ready False, kubelet down
Node DiskPressure 대응eviction, pod pending, image pull 실패
Node MemoryPressure 대응OOMKilled, pod eviction
Pod CrashLoopBackOff 대응앱 기동 실패, 설정 오류, dependency 장애
Pod Pending 대응리소스 부족, taint 미일치, PVC pending
Pod OOMKilled 대응memory limit 초과
ImagePullBackOff 대응registry 접근 불가, image 없음, pull secret 오류
FailedScheduling 대응quota, affinity, nodeSelector, taint 문제
FailedMount 대응PVC, CSI, Longhorn, Secret/ConfigMap mount 실패
Readiness/Liveness Probe 실패 대응앱 미기동, dependency timeout, probe 설정 오류
Service endpoint 없음 대응selector 불일치, pod not ready
DNS 장애 대응CoreDNS 장애, upstream DNS, search domain 문제
API Server 응답 지연 대응etcd/API 부하, webhook 지연
Admission Webhook 장애 대응배포 실패, timeout, cert 만료
Evicted Pod 대량 발생 대응노드 pressure, ephemeral-storage 부족
Namespace Terminating 대응finalizer, CRD 삭제 문제
PVC/PV Terminating 대응CSI finalizer, volume attachment 문제

3. Cilium / 네트워크 SOP

3.1 일반 운영 SOP

SOP 항목설명
Cilium 상태 점검 절차cilium status, agent, operator, endpoint 확인
Cilium BGP 상태 점검 절차BGP peer, route advertise, session flap 확인
NetworkPolicy 변경 절차정책 추가/수정/삭제, 영향 범위 확인
L7/L4 정책 적용 절차서비스 간 통신 제어
Hubble 관측 절차flow 확인, drop reason 분석
Ingress/LoadBalancer 변경 절차VIP, BGP advertisement, routing 확인
Cluster Mesh 상태 점검 절차멀티 클러스터 연결, identity sync 확인
MTU 변경 절차노드/터널/underlay 영향 검증
Cilium 업그레이드 절차사전 점검, rolling update, rollback
Cilium 설정 변경 절차ConfigMap, Helm values, agent 재시작 영향

3.2 네트워크 장애 SOP

장애 SOP 항목대표 증상
Pod 간 통신 장애특정 namespace/service 간 연결 실패
Service 접근 장애ClusterIP/NodePort/LB 접근 실패
Ingress 접근 장애404/503/504, TLS 오류
DNS 질의 실패서비스명 해석 실패
Cilium Agent 장애endpoint programming 실패
Cilium Operator 장애IPAM, identity, LB 관리 문제
BGP session flap 대응외부 접근 간헐 중단, VIP route 사라짐
NetworkPolicy 오차단 대응특정 앱만 통신 불가
Cilium drop packet 분석Hubble drop, policy denied, CT issue
Conntrack table 고갈 대응connection reset, timeout 증가
MTU 문제 대응대용량 전송 실패, TLS handshake 실패
LoadBalancer VIP 미광고 대응외부 접속 불가
Node 간 east-west traffic 지연 대응특정 노드/랙 간 latency 증가
mTLS/서비스 메시 통신 장애인증서, policy, proxy 문제

4. Ingress / Gateway / 인증서 SOP

4.1 일반 운영 SOP

SOP 항목설명
Ingress 생성/변경 절차host, path, backend service, TLS 설정
TLS 인증서 발급/갱신 절차내부 CA, cert-manager, secret 갱신
Wildcard 인증서 관리 절차공통 도메인 인증서 운영
mTLS 설정 절차client cert 검증, trust bundle 관리
NGINX/Ingress Controller 설정 변경 절차ConfigMap, annotation, reload 영향
Ingress 대량 변경 절차3000개 이상 ingress 환경에서 변경 순서
인증서 만료 점검 절차만료 예정 cert 사전 알림
Fake certificate 확인 절차default cert 반환 여부 점검
WAF/보안 헤더 설정 절차필요 시 header, rate limit, allow/deny

4.2 장애 SOP

장애 SOP 항목대표 증상
TLS 인증서 오류 대응expired, unknown authority, fake cert
Ingress 404 대응host/path/backend 매핑 오류
Ingress 502/503 대응backend pod/service endpoint 문제
Ingress 504 대응backend timeout, network latency
NGINX reload 지연 대응ingress 대량 변경 후 반영 지연
NGINX shared dict 부족 대응certificate cache full, LRU eviction
인증서 Secret 누락 대응TLS secret not found
mTLS client 인증 실패 대응client cert, CA bundle, SAN 문제
Rate limit 오동작 대응정상 요청 차단
대량 Ingress 변경 후 장애 대응config reload, cache warming, fake cert 가능성

5. AIStor / MinIO Object Storage SOP

5.1 일반 운영 SOP

SOP 항목설명
Bucket 생성 절차naming, owner, quota, policy, versioning 기준
Prefix 정책 등록 절차사용자/팀별 prefix 권한, ILM, quota 관리
Bucket Policy 변경 절차read/write 권한 변경, 영향 검토
Service Account 생성/폐기 절차access key 발급, 만료, 권한 제한
STS/OIDC 연동 점검 절차Keycloak/LDAP 기반 인증
Disk 상태 점검 절차drive offline, healing, smart 상태
Pool/Set 상태 점검 절차EC set, parity, tolerance 확인
Capacity 점검 절차usable, raw, bucket별 사용량
Object 통계 수집 절차inventory API, parquet 저장, prefix별 후처리
ILM 정책 생성/변경 절차hot/warm tier, prefix 기준 이동/삭제
Replication 설정 절차bucket replication, versioning, failover 고려
Versioning 설정 절차ILM/replication 영향 검토
Lifecycle 삭제 정책 절차prefix별 retention, delete marker 처리
Tier 추가 절차warm tier AIStor 추가, target 등록
Scanner 설정 변경 절차성능 영향, 운영 시간대 고려
IAM refresh 점검 절차stale IAM, service account load 지연 확인
Audit log 조회 절차특정 object/prefix/client 요청 추적
성능 테스트 절차warp, s3bench, k6, fio, JMeter
대량 객체 삭제 절차prefix 삭제, batch job, 성능 영향
HDFS/NFS to S3 마이그레이션 절차사전 검증, sync, checksum, cutover

5.2 AIStor / MinIO 장애 SOP

장애 SOP 항목대표 증상
Drive offline 대응mc admin info에서 disk offline
Disk 교체 절차drain 여부, replace, heal 확인
Healing 지연 대응heal backlog 증가, I/O 부하
EC set read quorum error 대응일부 객체 read 실패
EC set write quorum error 대응PUT/DELETE 실패, 5xx 증가
전체 tolerance 급락 대응minio_cluster_erasure_set_write_tolerance 하락
특정 pod 5xx 증가 대응특정 MinIO pod backend 문제
특정 bucket 4xx 급증 대응404/403/Signature mismatch 분석
HeadObject 404 대량 발생 대응앱 로직 확인, audit log 분석
IAM refresh 지연 대응service account/STS policy load 장시간
STS 인증 실패 대응OIDC, LDAP, policy mapping 문제
Signature V4 오류 대응client clock skew, key, region, canonical request
Bucket policy 오적용 대응정상 사용자 접근 불가
ILM 이동 실패 대응target tier 오류, versioning, lifecycle rule
Replication backlog 증가 대응target 장애, bandwidth, queue 확인
Object lock/retention 오류 대응삭제 실패, compliance 모드
Multipart upload 잔여물 증가 대응incomplete multipart cleanup
Scanner 부하 대응운영 중 latency 증가
Inventory job 실패 대응parquet 생성 실패, schedule 문제
Prefix 사용량 조회 불가 대응inventory 후처리 job 실패
MinIO pod 재시작 대응EC set 영향, readiness 확인
Warm tier 접근 장애 대응ILM 대상 tier read 실패
대량 Delete 후 성능 저하 대응scanner/heal/delete marker 영향

6. Longhorn / Block Storage SOP

6.1 일반 운영 SOP

SOP 항목설명
Longhorn 상태 점검 절차manager, engine, replica, node 상태
StorageClass 생성/변경 절차replica count, reclaim policy, expansion
PVC 생성/확장 절차workload별 PVC 요청 처리
Volume snapshot 생성 절차작업 전 snapshot 기준
Backup 설정 절차backup target, schedule, retention
Volume restore 절차snapshot/backup 기반 복구
Replica 재배치 절차노드 유지보수 전 replica 위치 확인
Node drain 전 Longhorn 점검 절차attached volume, replica health 확인
Orphaned replica 정리 절차불필요 replica 제거
Longhorn 업그레이드 절차CRD, manager, engine image 변경

6.2 장애 SOP

장애 SOP 항목대표 증상
Volume degraded 대응replica 손실, rebuild 필요
Volume faulted 대응workload I/O 중단
Replica rebuild 지연 대응rebuild backlog, 네트워크/디스크 병목
PVC Pending 대응volume provisioning 실패
Volume attach 실패 대응attachment stuck, node 문제
Volume detach 실패 대응workload 종료 후 detach 안 됨
Node down으로 인한 volume 장애replica 부족, attachment 재조정
Backup 실패 대응backup target 접근 불가
Restore 실패 대응backup metadata, target 문제
Engine crash 대응workload I/O 오류
Snapshot 과다 대응성능저하, 용량 증가

7. 인증 / 인가 / 보안 SOP

7.1 일반 운영 SOP

SOP 항목설명
사용자 온보딩 절차LDAP/Keycloak 계정, 그룹, namespace, 권한 부여
사용자 오프보딩 절차계정 비활성화, token/key 회수, namespace 정리
그룹 권한 변경 절차LDAP group, Keycloak role, K8s RBAC, S3 policy
Keycloak client 생성 절차OIDC client, redirect URI, secret 관리
Keycloak realm 설정 변경 절차운영 영향 검토
kubelogin/kubeconfig 발급 절차사용자별 kubeconfig 자동 생성
Service Account 발급 절차K8s SA, MinIO service account 구분
Secret rotation 절차앱 secret, access key, token 교체
인증서 rotation 절차CA, server cert, client cert
OPA/Gatekeeper 정책 변경 절차정책 검증, dry-run, audit
mTLS trust bundle 갱신 절차서비스 간 인증서 체인 갱신
관리자 권한 부여 절차break-glass, 승인, 기록
보안 예외 승인 절차임시 권한, 만료일, 사후 회수

7.2 장애 SOP

장애 SOP 항목대표 증상
Keycloak 로그인 장애SSO 로그인 불가
LDAP 연동 장애사용자 인증 실패
OIDC token 발급 실패앱 로그인 불가
Token 검증 실패invalid issuer, audience, JWKS 문제
kubeconfig 로그인 실패kubelogin, OIDC, RBAC 문제
RBAC 권한 부족 장애forbidden, cannot list/get/create
OPA 정책 오차단배포/생성 요청 거부
Secret 만료/오류 장애앱 dependency 인증 실패
인증서 만료 장애TLS/mTLS handshake 실패
MinIO STS 인증 장애S3 접근 실패
관리자 계정 잠김 대응break-glass 절차 필요
권한 과다 부여 발견 대응감사, 회수, 영향 분석

8. GitOps / CI/CD / 형상관리 SOP

8.1 일반 운영 SOP

SOP 항목설명
Git repository 구조 관리 절차app/env/cluster/base/overlay 구조
Manifest 변경 요청 절차PR, 리뷰, 승인, 배포
Jenkins CI 검증 절차YAML lint, Helm template, kubeconform, policy check
ArgoCD App 생성 절차app-of-apps, project, destination 설정
ArgoCD Sync 절차auto/manual sync 기준
ArgoCD Rollback 절차이전 commit/tag로 원복
Image 등록 절차Air-gap registry 반입, scan, 승인
Nexus artifact 반입 절차외부 artifact 검증 후 반입
Helm chart 반입 절차vendor chart 검증, 내부 저장소 등록
배포 freeze 절차야간/월말/장애기간 변경 금지
Emergency change 절차긴급 변경 승인, 사후 리뷰
환경변수/Secret 변경 절차앱 재기동 필요성 확인
표준 템플릿 관리 절차Golden Path, namespace, RBAC, quota, app template
GitOps drift 복구 절차수동 변경 탐지 후 Git 기준 원복

8.2 장애 SOP

장애 SOP 항목대표 증상
Jenkins pipeline 실패 대응lint/test/deploy 실패
ArgoCD OutOfSync 대응Git과 cluster 상태 불일치
ArgoCD Degraded 대응배포 리소스 unhealthy
ArgoCD sync 실패 대응CRD 없음, 권한 부족, webhook 실패
Helm rendering 실패 대응values 오류, template 오류
Manifest validation 실패 대응API version 오류, schema 오류
Image pull 실패 대응registry, tag, pull secret 문제
Nexus 장애 대응dependency 다운로드 실패
Git 서버 장애 대응배포/변경 불가
잘못된 manifest 배포 대응rollback, revert, sync
수동 변경 drift 대응누가/무엇을 변경했는지 추적
Air-gap artifact 누락 대응chart/image/package 없음

9. Observability / Logging SOP

9.1 일반 운영 SOP

SOP 항목설명
Prometheus target 점검 절차scrape up/down, relabel 확인
Alert rule 변경 절차신규 알람 추가, threshold 조정
Grafana dashboard 생성 절차서비스별 표준 dashboard
Log pipeline 점검 절차Fluent Bit → OpenSearch 흐름 확인
OpenSearch index lifecycle 관리rollover, retention, delete
로그 검색 절차장애 시 pod/node/request 기준 검색
Metric 기반 장애 분석 절차Golden Signal, USE/RED 지표
SLO/Error budget 관리 절차주요 서비스 가용성 관리
알람 라우팅 관리 절차담당팀, 심각도, 근무시간/비상연락
Runbook link 관리 절차알람별 SOP 연결
대시보드 표준화 절차클러스터, 서비스, 스토리지, 네트워크별
장기 보관 로그 관리 절차보안감사/장애분석용 retention

9.2 장애 SOP

장애 SOP 항목대표 증상
Prometheus 수집 중단 대응target down, scrape timeout
Prometheus 용량 부족 대응TSDB full, compaction 실패
Alertmanager 알림 미발송 대응route, receiver, silence 문제
Grafana 접속 장애 대응datasource, auth, backend 문제
Fluent Bit 로그 유실 대응buffer full, output error
OpenSearch ingest 지연 대응indexing latency, bulk reject
OpenSearch shard unassigned 대응yellow/red cluster
OpenSearch disk watermark 대응index read-only, write block
로그 검색 불가 대응index pattern, permission, shard issue
Metric cardinality 폭증 대응Prometheus 부하, remote write 지연
알람 폭주 대응noise suppression, grouping, silence
Dashboard 데이터 누락 대응datasource, label, query 오류

10. Air-gap 환경 SOP

SOP 항목설명
외부 패키지 반입 절차보안검토, 무결성 검증, 승인
컨테이너 이미지 반입 절차scan, SBOM, signature, 내부 registry push
Helm chart 반입 절차chart dependency 포함 여부 확인
Python/Java 패키지 반입 절차PyPI/Maven dependency mirror
OS 패키지 반입 절차yum/apt repository mirror
Vendor 문서 반입 절차docs markdown화, Git 저장
Patch bundle 반입 절차보안 패치, 버전 호환성 검증
라이선스 검토 절차오픈소스/상용 라이선스 확인
반입 파일 무결성 검증 절차checksum, signature 검증
내부 Nexus/Registry 동기화 절차신규 artifact 등록
Air-gap 업데이트 작업계획서반입 → 검증 → 배포 → 롤백
반입 실패 대응 SOPdependency 누락, checksum 불일치
폐쇄망 긴급 패치 SOPCVE 대응, vendor hotfix 반입

11. 데이터 플랫폼 서비스 SOP

11.1 Spark SOP

SOP 항목설명
Spark job 제출 절차namespace, SA, quota, queue 지정
Spark executor resource 설정 절차CPU/memory/executor 수 기준
Spark on K8s 장애 분석 절차driver/executor pod, event, log 확인
Spark S3 접근 설정 절차endpoint, credential, path-style, TLS
Spark Iceberg catalog 설정 절차catalog, warehouse, metastore
Spark job 실패 대응OOM, shuffle, S3 timeout, permission
Spark 성능저하 대응executor 부족, skew, shuffle spill
Spark 대량 job 운영 SOPKueue/YuniKorn queue 관리

11.2 Trino / StarRocks / Impala SOP

SOP 항목설명
Query engine 상태 점검coordinator/worker/FE/BE 상태
Catalog/Connector 변경 절차Iceberg, Hive, S3 connector 설정
Query 실패 분석 절차권한, catalog, metadata, S3 접근
Query 성능저하 대응특정 쿼리, 특정 테이블, 특정 worker 병목
Worker scale-out/in 절차노드 추가/제거, rolling restart
Metadata cache refresh 절차Iceberg/Hive metadata 불일치
대량 쿼리 부하 대응queue, resource group, admission control
사용자별 권한 적용 절차catalog/schema/table 권한
Query kill 절차장시간/과도한 리소스 사용 query 중단
Engine 재시작 절차영향 범위, 순차 재기동

11.3 Airflow SOP

SOP 항목설명
DAG 배포 절차GitOps, validation, syntax check
DAG 실패 대응task log, retry, dependency, credential
Scheduler 상태 점검scheduling delay, heartbeat
Worker 상태 점검queue backlog, pod pending
Executor 설정 변경 절차KubernetesExecutor/CeleryExecutor 등
Connection/Variable 변경 절차secret 연동, 권한 관리
DAG 권한 관리 절차사용자/팀별 DAG 접근
대량 DAG 운영 절차2000명 사용자, namespace/SA 분리
Airflow DB 백업/복구 절차metadata DB 보호
Airflow upgrade 절차DB migration, plugin 호환성

11.4 JupyterLab / Sandbox SOP

SOP 항목설명
사용자 sandbox 생성 절차namespace, PVC, SA, quota
JupyterLab 기동 실패 대응pod pending, image pull, PVC mount
사용자 권한 변경 절차namespace/RBAC/S3 policy
개인 PVC 증설 절차요청 승인, quota 확인
세션 종료/정리 절차idle timeout, 자원 회수
사용자 환경 이미지 변경 절차base image, package, security scan
Notebook S3 접근 장애 대응credential, endpoint, TLS
사용자 오프보딩 정리 절차PVC, secret, service account, S3 prefix

12. Scheduler / Queue / Multi-tenant SOP

SOP 항목설명
Kueue Queue 생성 절차cohort, resource flavor, quota
YuniKorn Queue 생성 절차root/app queue, user/group quota
사용자/팀별 quota 부여 절차CPU/memory/GPU/storage limit
Queue 우선순위 변경 절차운영/긴급/배치 workload 우선순위
Job Pending 대응quota 부족, queue admission 실패
Queue starvation 대응특정 팀 job 장기 대기
Resource preemption 대응우선순위에 따른 job 중단
대량 batch job 대응burst control, admission control
특정 사용자 과다 사용 대응quota 조정, throttling
Scheduler 설정 변경 절차영향도 검토, rollback
Fair sharing 점검 절차사용자/팀별 리소스 사용량 분석

13. Backup / Restore / DR SOP

SOP 항목설명
etcd 백업 절차snapshot 생성, 암호화, 보관
etcd 복구 절차control plane 복구
Git repository 백업 절차GitOps 원천 데이터 보호
Keycloak 백업 절차realm, client, user federation 설정
Keycloak 복구 절차인증 서비스 복구
ArgoCD 백업 절차app/project/repo credential
Jenkins 백업 절차job, credential, plugin, workspace 기준
Prometheus 백업 절차rule, config, 장기 metric 필요 시
Grafana 백업 절차dashboard, datasource
OpenSearch 백업 절차snapshot repository, index restore
Airflow DB 백업 절차DAG 이력, connection, variable
Longhorn volume backup 절차volume별 backup/restore
AIStor bucket replication/backup 절차중요 bucket 보호
DR 전환 절차주요 서비스 복구 순서
DR 모의훈련 절차정기 restore test
백업 무결성 검증 절차checksum, restore rehearsal
RPO/RTO 기준 관리 절차서비스별 복구 목표 정의

14. 변경 작업계획서 표준 Case

작업계획서는 SOP보다 더 구체적으로 “이번 작업을 어떻게 할 것인가”에 초점을 둬야 합니다. 아래 case들은 표준 작업계획서 템플릿으로 만들어두는 게 좋습니다.

작업계획서 Case포함할 내용
Kubernetes 노드 추가대상 노드, 역할, label/taint, 검증
Kubernetes 노드 제거drain, workload 이관, cluster 제거
Kubernetes 노드 재기동순서, 영향 서비스, rollback
OS/kernel 패치사전 점검, drain, reboot, 검증
Cilium 업그레이드버전, 영향, BGP/network 확인
Cilium 설정 변경변경값, 영향, rollback
Ingress Controller 설정 변경reload 영향, TLS 검증
인증서 갱신대상 cert, 만료일, 교체 방식
Keycloak 설정 변경realm/client/role 변경 영향
OPA 정책 변경dry-run, audit, 차단 영향
ArgoCD app 추가/변경repo/path/revision/sync 정책
Jenkins pipeline 변경검증 단계, rollback
Registry/Nexus artifact 반입파일 목록, checksum, scan 결과
AIStor disk 교체대상 disk, EC set, heal 확인
AIStor bucket/policy 변경대상 bucket, prefix, 권한 영향
AIStor ILM 변경대상 prefix, 이동/삭제 조건, 초기 처리
AIStor tier 추가hot/warm target, replication/ILM 영향
Longhorn volume 확장PVC, workload 영향, 검증
OpenSearch index lifecycle 변경retention, rollover, delete 영향
Airflow DAG 대량 배포validation, rollback, scheduler 영향
Spark/Trino/StarRocks 설정 변경catalog, resource, endpoint 영향
사용자 sandbox 대량 생성namespace, quota, SA, PVC
DR 훈련 작업계획복구 순서, 검증 기준, 중단 범위
대규모 점검 작업작업 freeze, 알림, checkpoint, rollback

15. 장애 SOP 우선순위 Top 30

장애 SOP가 거의 없다면 아래부터 먼저 만드는 것을 추천합니다.

우선순위장애 SOP
1K8s Node NotReady 대응
2Pod CrashLoopBackOff 대응
3Pod Pending / FailedScheduling 대응
4PVC Pending / FailedMount 대응
5Cilium BGP session flap 대응
6Pod 간 통신 장애 대응
7DNS 장애 대응
8Ingress 502/503/504 대응
9TLS 인증서 오류 대응
10Keycloak 로그인 장애 대응
11LDAP/OIDC 연동 장애 대응
12RBAC/OPA 오차단 대응
13AIStor drive offline 대응
14AIStor disk 교체 및 healing 대응
15AIStor read/write quorum error 대응
16AIStor 특정 pod 5xx 증가 대응
17AIStor IAM/STS 인증 장애 대응
18AIStor ILM/Replication 실패 대응
19Longhorn volume degraded/faulted 대응
20OpenSearch disk watermark / shard unassigned 대응
21Fluent Bit 로그 수집 장애 대응
22Prometheus target down / scrape 실패 대응
23Grafana datasource 장애 대응
24ArgoCD sync 실패 / degraded 대응
25Jenkins pipeline 실패 대응
26ImagePullBackOff / Registry 장애 대응
27Airflow DAG 실패 / scheduler 지연 대응
28Spark job 실패 / executor OOM 대응
29Trino/StarRocks query 성능저하 대응
30대량 알람 폭주 / 장애상황 커뮤니케이션 SOP

16. SOP 문서별 공통 목차

각 SOP는 아래 형식으로 통일하는 게 좋습니다.

1. 목적
2. 적용 범위
3. 담당 조직 / 담당자
4. 사전 조건
5. 영향도
6. 관련 시스템
7. 판단 기준
8. 절차
   8.1 1차 확인
   8.2 상세 확인
   8.3 조치
   8.4 복구 확인
9. 롤백 / 원복 절차
10. 장애 확대 기준
11. 커뮤니케이션 기준
12. 점검 명령어
13. 관련 대시보드
14. 관련 로그 위치
15. 관련 알람
16. 사후 조치
17. 변경 이력

장애 SOP는 여기에 아래 항목을 추가하는 것이 좋습니다.

- 증상
- 영향 범위
- 심각도 분류
- 즉시 완화 조치
- 근본 원인 분석 절차
- 재발 방지 항목
- 벤더 문의 시 첨부 자료

17. 실제 정비 순서 추천

처음부터 모든 SOP를 완벽히 만들기보다 아래 순서가 현실적입니다.

  1. 장애 대응 Top 30부터 작성
  2. 일일/주간/월간 점검 SOP 작성
  3. 변경 작업계획서 표준 템플릿 작성
  4. AIStor / Cilium / Keycloak / GitOps / Observability 중심으로 상세화
  5. 각 Alert에 SOP 링크 연결
  6. Git에 Markdown으로 저장
  7. OpenSearch/RAG/LLM Wiki에 인덱싱
  8. 장애 발생 후 Postmortem 결과를 SOP에 반영

특히 귀사 환경에서는 아래 5개 영역을 가장 먼저 정리하는 게 좋습니다.

1. AIStor / MinIO 장애 SOP
2. Cilium / Ingress / DNS 장애 SOP
3. 인증 / Keycloak / LDAP / OIDC 장애 SOP
4. GitOps / Jenkins / ArgoCD 변경 SOP
5. Observability / 로그 / 알람 기반 분석 SOP

이 5개가 정리되면, 운영자가 바뀌거나 야간 장애가 발생해도 “어디서부터 확인해야 하는지”가 훨씬 명확해집니다.

0개의 댓글