26M19a

Young-Kyoo Kim·2026년 5월 18일

아래는 Cloud Native Data Lakehouse / Air-gap / 대규모 K8s / Cilium / AIStor-MinIO / Longhorn / Keycloak / GitOps / Observability 환경 기준으로 공통적으로 갖춰야 할 SOP 항목 목록입니다.

장애 SOP가 거의 없다면, 우선은 “자주 발생 가능 + 영향도 큼 + 담당자 교체 시 위험” 기준으로 정비하는 게 좋습니다.

1. 공통 운영 SOP

1.1 일일 점검 SOP

SOP 항목	주요 점검 내용
일일 시스템 상태 점검	클러스터 상태, 노드 Ready, Pod 상태, 주요 서비스 endpoint 상태
K8s 노드 상태 점검	NotReady, DiskPressure, MemoryPressure, PIDPressure, taint 이상
주요 Namespace 상태 점검	kube-system, ingress, cilium, monitoring, storage, data platform namespace
주요 Pod 재시작 점검	restart count 증가, CrashLoopBackOff, OOMKilled
이벤트 점검	Warning 이벤트, FailedMount, FailedScheduling, Unhealthy, BackOff
인증/인가 상태 점검	Keycloak, LDAP 연동, token 발급, OIDC 로그인, service account 이상
GitOps Sync 상태 점검	ArgoCD OutOfSync, Degraded, Health 상태
CI/CD 상태 점검	Jenkins job 실패, 배포 pipeline 실패, Nexus/Git 접근 이상
모니터링 수집 상태 점검	Prometheus scrape 실패, target down, Grafana datasource 이상
로그 수집 상태 점검	Fluent Bit, OpenSearch ingest 지연, index 상태
스토리지 상태 점검	AIStor/MinIO drive offline, Longhorn volume degraded, PVC Pending
네트워크 상태 점검	Cilium agent 상태, BGP session, DNS, ingress 상태
용량 점검	AIStor 사용률, PV/PVC 사용률, 노드 디스크 사용률, OpenSearch index 용량
백업 상태 점검	백업 job 성공 여부, 백업 파일 생성 여부, retention 준수

1.2 주간/월간 점검 SOP

SOP 항목	주요 점검 내용
주간 리소스 사용률 점검	CPU, Memory, Disk, Network, Pod count 추세
주간 알람 리뷰	반복 알람, noise 알람, 미조치 알람 정리
주간 장애/이슈 리뷰	장애 ticket, 임시조치, 재발방지 필요 항목
월간 용량 예측	AIStor, OpenSearch, PVC, DB, backup 저장소 증설 필요성
월간 보안 점검	계정, 권한, RoleBinding, Secret, 인증서 만료
월간 인증서 만료 점검	Ingress TLS, mTLS, Keycloak cert, internal CA, service cert
월간 백업 복구 리허설	실제 restore 가능 여부 검증
월간 GitOps drift 점검	수동 변경된 리소스 탐지 및 원복
월간 취약점/이미지 점검	Air-gap registry image, base image, CVE 대응 현황
월간 SLO/SLA 리뷰	가용성, 장애시간, 성능저하, MTTR, error rate

2. Kubernetes 공통 SOP

2.1 일반 운영 SOP

SOP 항목	설명
노드 cordon/drain/uncordon 절차	유지보수, 디스크 교체, 커널 패치 전 필수
노드 재기동 절차	순차 재기동, workload 영향 확인, drain 예외 처리
노드 추가 절차	신규 compute/storage/common 노드 등록
노드 제거 절차	workload 이관, storage 분리, cluster membership 제거
Namespace 생성 절차	사용자/팀/서비스별 namespace 생성 기준
ResourceQuota/LimitRange 설정 절차	사용자 sandbox, Airflow, Spark, Jupyter 리소스 제한
ServiceAccount 생성 절차	workload별 SA 생성, token, RBAC 연결
RBAC 권한 부여 절차	Role/ClusterRole/Binding 표준화
Secret/ConfigMap 변경 절차	민감정보 관리, 재시작 필요 여부
Deployment/StatefulSet 변경 절차	replica, image, env, probe 변경
HPA/VPA 설정 절차	자동 확장 기준, metric 확인
PodDisruptionBudget 설정 절차	drain 시 서비스 영향 방지
Taint/Toleration 설정 절차	compute/storage/common 노드 역할 분리
Label/Annotation 관리 절차	운영 자동화, 비용/소유자/서비스 식별
CRD 적용/삭제 절차	operator 기반 서비스 변경 시 필수
Helm chart 배포 절차	values 관리, rollback, diff 확인

2.2 Kubernetes 장애 SOP

장애 SOP 항목	대표 증상
Node NotReady 장애 대응	노드 Ready False, kubelet down
Node DiskPressure 대응	eviction, pod pending, image pull 실패
Node MemoryPressure 대응	OOMKilled, pod eviction
Pod CrashLoopBackOff 대응	앱 기동 실패, 설정 오류, dependency 장애
Pod Pending 대응	리소스 부족, taint 미일치, PVC pending
Pod OOMKilled 대응	memory limit 초과
ImagePullBackOff 대응	registry 접근 불가, image 없음, pull secret 오류
FailedScheduling 대응	quota, affinity, nodeSelector, taint 문제
FailedMount 대응	PVC, CSI, Longhorn, Secret/ConfigMap mount 실패
Readiness/Liveness Probe 실패 대응	앱 미기동, dependency timeout, probe 설정 오류
Service endpoint 없음 대응	selector 불일치, pod not ready
DNS 장애 대응	CoreDNS 장애, upstream DNS, search domain 문제
API Server 응답 지연 대응	etcd/API 부하, webhook 지연
Admission Webhook 장애 대응	배포 실패, timeout, cert 만료
Evicted Pod 대량 발생 대응	노드 pressure, ephemeral-storage 부족
Namespace Terminating 대응	finalizer, CRD 삭제 문제
PVC/PV Terminating 대응	CSI finalizer, volume attachment 문제

3. Cilium / 네트워크 SOP

3.1 일반 운영 SOP

SOP 항목	설명
Cilium 상태 점검 절차	cilium status, agent, operator, endpoint 확인
Cilium BGP 상태 점검 절차	BGP peer, route advertise, session flap 확인
NetworkPolicy 변경 절차	정책 추가/수정/삭제, 영향 범위 확인
L7/L4 정책 적용 절차	서비스 간 통신 제어
Hubble 관측 절차	flow 확인, drop reason 분석
Ingress/LoadBalancer 변경 절차	VIP, BGP advertisement, routing 확인
Cluster Mesh 상태 점검 절차	멀티 클러스터 연결, identity sync 확인
MTU 변경 절차	노드/터널/underlay 영향 검증
Cilium 업그레이드 절차	사전 점검, rolling update, rollback
Cilium 설정 변경 절차	ConfigMap, Helm values, agent 재시작 영향

3.2 네트워크 장애 SOP

장애 SOP 항목	대표 증상
Pod 간 통신 장애	특정 namespace/service 간 연결 실패
Service 접근 장애	ClusterIP/NodePort/LB 접근 실패
Ingress 접근 장애	404/503/504, TLS 오류
DNS 질의 실패	서비스명 해석 실패
Cilium Agent 장애	endpoint programming 실패
Cilium Operator 장애	IPAM, identity, LB 관리 문제
BGP session flap 대응	외부 접근 간헐 중단, VIP route 사라짐
NetworkPolicy 오차단 대응	특정 앱만 통신 불가
Cilium drop packet 분석	Hubble drop, policy denied, CT issue
Conntrack table 고갈 대응	connection reset, timeout 증가
MTU 문제 대응	대용량 전송 실패, TLS handshake 실패
LoadBalancer VIP 미광고 대응	외부 접속 불가
Node 간 east-west traffic 지연 대응	특정 노드/랙 간 latency 증가
mTLS/서비스 메시 통신 장애	인증서, policy, proxy 문제

4. Ingress / Gateway / 인증서 SOP

4.1 일반 운영 SOP

SOP 항목	설명
Ingress 생성/변경 절차	host, path, backend service, TLS 설정
TLS 인증서 발급/갱신 절차	내부 CA, cert-manager, secret 갱신
Wildcard 인증서 관리 절차	공통 도메인 인증서 운영
mTLS 설정 절차	client cert 검증, trust bundle 관리
NGINX/Ingress Controller 설정 변경 절차	ConfigMap, annotation, reload 영향
Ingress 대량 변경 절차	3000개 이상 ingress 환경에서 변경 순서
인증서 만료 점검 절차	만료 예정 cert 사전 알림
Fake certificate 확인 절차	default cert 반환 여부 점검
WAF/보안 헤더 설정 절차	필요 시 header, rate limit, allow/deny

4.2 장애 SOP

장애 SOP 항목	대표 증상
TLS 인증서 오류 대응	expired, unknown authority, fake cert
Ingress 404 대응	host/path/backend 매핑 오류
Ingress 502/503 대응	backend pod/service endpoint 문제
Ingress 504 대응	backend timeout, network latency
NGINX reload 지연 대응	ingress 대량 변경 후 반영 지연
NGINX shared dict 부족 대응	certificate cache full, LRU eviction
인증서 Secret 누락 대응	TLS secret not found
mTLS client 인증 실패 대응	client cert, CA bundle, SAN 문제
Rate limit 오동작 대응	정상 요청 차단
대량 Ingress 변경 후 장애 대응	config reload, cache warming, fake cert 가능성

5. AIStor / MinIO Object Storage SOP

5.1 일반 운영 SOP

SOP 항목	설명
Bucket 생성 절차	naming, owner, quota, policy, versioning 기준
Prefix 정책 등록 절차	사용자/팀별 prefix 권한, ILM, quota 관리
Bucket Policy 변경 절차	read/write 권한 변경, 영향 검토
Service Account 생성/폐기 절차	access key 발급, 만료, 권한 제한
STS/OIDC 연동 점검 절차	Keycloak/LDAP 기반 인증
Disk 상태 점검 절차	drive offline, healing, smart 상태
Pool/Set 상태 점검 절차	EC set, parity, tolerance 확인
Capacity 점검 절차	usable, raw, bucket별 사용량
Object 통계 수집 절차	inventory API, parquet 저장, prefix별 후처리
ILM 정책 생성/변경 절차	hot/warm tier, prefix 기준 이동/삭제
Replication 설정 절차	bucket replication, versioning, failover 고려
Versioning 설정 절차	ILM/replication 영향 검토
Lifecycle 삭제 정책 절차	prefix별 retention, delete marker 처리
Tier 추가 절차	warm tier AIStor 추가, target 등록
Scanner 설정 변경 절차	성능 영향, 운영 시간대 고려
IAM refresh 점검 절차	stale IAM, service account load 지연 확인
Audit log 조회 절차	특정 object/prefix/client 요청 추적
성능 테스트 절차	warp, s3bench, k6, fio, JMeter
대량 객체 삭제 절차	prefix 삭제, batch job, 성능 영향
HDFS/NFS to S3 마이그레이션 절차	사전 검증, sync, checksum, cutover

5.2 AIStor / MinIO 장애 SOP

장애 SOP 항목	대표 증상
Drive offline 대응	mc admin info에서 disk offline
Disk 교체 절차	drain 여부, replace, heal 확인
Healing 지연 대응	heal backlog 증가, I/O 부하
EC set read quorum error 대응	일부 객체 read 실패
EC set write quorum error 대응	PUT/DELETE 실패, 5xx 증가
전체 tolerance 급락 대응	minio_cluster_erasure_set_write_tolerance 하락
특정 pod 5xx 증가 대응	특정 MinIO pod backend 문제
특정 bucket 4xx 급증 대응	404/403/Signature mismatch 분석
HeadObject 404 대량 발생 대응	앱 로직 확인, audit log 분석
IAM refresh 지연 대응	service account/STS policy load 장시간
STS 인증 실패 대응	OIDC, LDAP, policy mapping 문제
Signature V4 오류 대응	client clock skew, key, region, canonical request
Bucket policy 오적용 대응	정상 사용자 접근 불가
ILM 이동 실패 대응	target tier 오류, versioning, lifecycle rule
Replication backlog 증가 대응	target 장애, bandwidth, queue 확인
Object lock/retention 오류 대응	삭제 실패, compliance 모드
Multipart upload 잔여물 증가 대응	incomplete multipart cleanup
Scanner 부하 대응	운영 중 latency 증가
Inventory job 실패 대응	parquet 생성 실패, schedule 문제
Prefix 사용량 조회 불가 대응	inventory 후처리 job 실패
MinIO pod 재시작 대응	EC set 영향, readiness 확인
Warm tier 접근 장애 대응	ILM 대상 tier read 실패
대량 Delete 후 성능 저하 대응	scanner/heal/delete marker 영향

6. Longhorn / Block Storage SOP

6.1 일반 운영 SOP

SOP 항목	설명
Longhorn 상태 점검 절차	manager, engine, replica, node 상태
StorageClass 생성/변경 절차	replica count, reclaim policy, expansion
PVC 생성/확장 절차	workload별 PVC 요청 처리
Volume snapshot 생성 절차	작업 전 snapshot 기준
Backup 설정 절차	backup target, schedule, retention
Volume restore 절차	snapshot/backup 기반 복구
Replica 재배치 절차	노드 유지보수 전 replica 위치 확인
Node drain 전 Longhorn 점검 절차	attached volume, replica health 확인
Orphaned replica 정리 절차	불필요 replica 제거
Longhorn 업그레이드 절차	CRD, manager, engine image 변경

6.2 장애 SOP

장애 SOP 항목	대표 증상
Volume degraded 대응	replica 손실, rebuild 필요
Volume faulted 대응	workload I/O 중단
Replica rebuild 지연 대응	rebuild backlog, 네트워크/디스크 병목
PVC Pending 대응	volume provisioning 실패
Volume attach 실패 대응	attachment stuck, node 문제
Volume detach 실패 대응	workload 종료 후 detach 안 됨
Node down으로 인한 volume 장애	replica 부족, attachment 재조정
Backup 실패 대응	backup target 접근 불가
Restore 실패 대응	backup metadata, target 문제
Engine crash 대응	workload I/O 오류
Snapshot 과다 대응	성능저하, 용량 증가

7. 인증 / 인가 / 보안 SOP

7.1 일반 운영 SOP

SOP 항목	설명
사용자 온보딩 절차	LDAP/Keycloak 계정, 그룹, namespace, 권한 부여
사용자 오프보딩 절차	계정 비활성화, token/key 회수, namespace 정리
그룹 권한 변경 절차	LDAP group, Keycloak role, K8s RBAC, S3 policy
Keycloak client 생성 절차	OIDC client, redirect URI, secret 관리
Keycloak realm 설정 변경 절차	운영 영향 검토
kubelogin/kubeconfig 발급 절차	사용자별 kubeconfig 자동 생성
Service Account 발급 절차	K8s SA, MinIO service account 구분
Secret rotation 절차	앱 secret, access key, token 교체
인증서 rotation 절차	CA, server cert, client cert
OPA/Gatekeeper 정책 변경 절차	정책 검증, dry-run, audit
mTLS trust bundle 갱신 절차	서비스 간 인증서 체인 갱신
관리자 권한 부여 절차	break-glass, 승인, 기록
보안 예외 승인 절차	임시 권한, 만료일, 사후 회수

7.2 장애 SOP

장애 SOP 항목	대표 증상
Keycloak 로그인 장애	SSO 로그인 불가
LDAP 연동 장애	사용자 인증 실패
OIDC token 발급 실패	앱 로그인 불가
Token 검증 실패	invalid issuer, audience, JWKS 문제
kubeconfig 로그인 실패	kubelogin, OIDC, RBAC 문제
RBAC 권한 부족 장애	forbidden, cannot list/get/create
OPA 정책 오차단	배포/생성 요청 거부
Secret 만료/오류 장애	앱 dependency 인증 실패
인증서 만료 장애	TLS/mTLS handshake 실패
MinIO STS 인증 장애	S3 접근 실패
관리자 계정 잠김 대응	break-glass 절차 필요
권한 과다 부여 발견 대응	감사, 회수, 영향 분석

8. GitOps / CI/CD / 형상관리 SOP

8.1 일반 운영 SOP

SOP 항목	설명
Git repository 구조 관리 절차	app/env/cluster/base/overlay 구조
Manifest 변경 요청 절차	PR, 리뷰, 승인, 배포
Jenkins CI 검증 절차	YAML lint, Helm template, kubeconform, policy check
ArgoCD App 생성 절차	app-of-apps, project, destination 설정
ArgoCD Sync 절차	auto/manual sync 기준
ArgoCD Rollback 절차	이전 commit/tag로 원복
Image 등록 절차	Air-gap registry 반입, scan, 승인
Nexus artifact 반입 절차	외부 artifact 검증 후 반입
Helm chart 반입 절차	vendor chart 검증, 내부 저장소 등록
배포 freeze 절차	야간/월말/장애기간 변경 금지
Emergency change 절차	긴급 변경 승인, 사후 리뷰
환경변수/Secret 변경 절차	앱 재기동 필요성 확인
표준 템플릿 관리 절차	Golden Path, namespace, RBAC, quota, app template
GitOps drift 복구 절차	수동 변경 탐지 후 Git 기준 원복

8.2 장애 SOP

장애 SOP 항목	대표 증상
Jenkins pipeline 실패 대응	lint/test/deploy 실패
ArgoCD OutOfSync 대응	Git과 cluster 상태 불일치
ArgoCD Degraded 대응	배포 리소스 unhealthy
ArgoCD sync 실패 대응	CRD 없음, 권한 부족, webhook 실패
Helm rendering 실패 대응	values 오류, template 오류
Manifest validation 실패 대응	API version 오류, schema 오류
Image pull 실패 대응	registry, tag, pull secret 문제
Nexus 장애 대응	dependency 다운로드 실패
Git 서버 장애 대응	배포/변경 불가
잘못된 manifest 배포 대응	rollback, revert, sync
수동 변경 drift 대응	누가/무엇을 변경했는지 추적
Air-gap artifact 누락 대응	chart/image/package 없음

9. Observability / Logging SOP

9.1 일반 운영 SOP

SOP 항목	설명
Prometheus target 점검 절차	scrape up/down, relabel 확인
Alert rule 변경 절차	신규 알람 추가, threshold 조정
Grafana dashboard 생성 절차	서비스별 표준 dashboard
Log pipeline 점검 절차	Fluent Bit → OpenSearch 흐름 확인
OpenSearch index lifecycle 관리	rollover, retention, delete
로그 검색 절차	장애 시 pod/node/request 기준 검색
Metric 기반 장애 분석 절차	Golden Signal, USE/RED 지표
SLO/Error budget 관리 절차	주요 서비스 가용성 관리
알람 라우팅 관리 절차	담당팀, 심각도, 근무시간/비상연락
Runbook link 관리 절차	알람별 SOP 연결
대시보드 표준화 절차	클러스터, 서비스, 스토리지, 네트워크별
장기 보관 로그 관리 절차	보안감사/장애분석용 retention

9.2 장애 SOP

장애 SOP 항목	대표 증상
Prometheus 수집 중단 대응	target down, scrape timeout
Prometheus 용량 부족 대응	TSDB full, compaction 실패
Alertmanager 알림 미발송 대응	route, receiver, silence 문제
Grafana 접속 장애 대응	datasource, auth, backend 문제
Fluent Bit 로그 유실 대응	buffer full, output error
OpenSearch ingest 지연 대응	indexing latency, bulk reject
OpenSearch shard unassigned 대응	yellow/red cluster
OpenSearch disk watermark 대응	index read-only, write block
로그 검색 불가 대응	index pattern, permission, shard issue
Metric cardinality 폭증 대응	Prometheus 부하, remote write 지연
알람 폭주 대응	noise suppression, grouping, silence
Dashboard 데이터 누락 대응	datasource, label, query 오류

10. Air-gap 환경 SOP

SOP 항목	설명
외부 패키지 반입 절차	보안검토, 무결성 검증, 승인
컨테이너 이미지 반입 절차	scan, SBOM, signature, 내부 registry push
Helm chart 반입 절차	chart dependency 포함 여부 확인
Python/Java 패키지 반입 절차	PyPI/Maven dependency mirror
OS 패키지 반입 절차	yum/apt repository mirror
Vendor 문서 반입 절차	docs markdown화, Git 저장
Patch bundle 반입 절차	보안 패치, 버전 호환성 검증
라이선스 검토 절차	오픈소스/상용 라이선스 확인
반입 파일 무결성 검증 절차	checksum, signature 검증
내부 Nexus/Registry 동기화 절차	신규 artifact 등록
Air-gap 업데이트 작업계획서	반입 → 검증 → 배포 → 롤백
반입 실패 대응 SOP	dependency 누락, checksum 불일치
폐쇄망 긴급 패치 SOP	CVE 대응, vendor hotfix 반입

11. 데이터 플랫폼 서비스 SOP

11.1 Spark SOP

SOP 항목	설명
Spark job 제출 절차	namespace, SA, quota, queue 지정
Spark executor resource 설정 절차	CPU/memory/executor 수 기준
Spark on K8s 장애 분석 절차	driver/executor pod, event, log 확인
Spark S3 접근 설정 절차	endpoint, credential, path-style, TLS
Spark Iceberg catalog 설정 절차	catalog, warehouse, metastore
Spark job 실패 대응	OOM, shuffle, S3 timeout, permission
Spark 성능저하 대응	executor 부족, skew, shuffle spill
Spark 대량 job 운영 SOP	Kueue/YuniKorn queue 관리

11.2 Trino / StarRocks / Impala SOP

SOP 항목	설명
Query engine 상태 점검	coordinator/worker/FE/BE 상태
Catalog/Connector 변경 절차	Iceberg, Hive, S3 connector 설정
Query 실패 분석 절차	권한, catalog, metadata, S3 접근
Query 성능저하 대응	특정 쿼리, 특정 테이블, 특정 worker 병목
Worker scale-out/in 절차	노드 추가/제거, rolling restart
Metadata cache refresh 절차	Iceberg/Hive metadata 불일치
대량 쿼리 부하 대응	queue, resource group, admission control
사용자별 권한 적용 절차	catalog/schema/table 권한
Query kill 절차	장시간/과도한 리소스 사용 query 중단
Engine 재시작 절차	영향 범위, 순차 재기동

11.3 Airflow SOP

SOP 항목	설명
DAG 배포 절차	GitOps, validation, syntax check
DAG 실패 대응	task log, retry, dependency, credential
Scheduler 상태 점검	scheduling delay, heartbeat
Worker 상태 점검	queue backlog, pod pending
Executor 설정 변경 절차	KubernetesExecutor/CeleryExecutor 등
Connection/Variable 변경 절차	secret 연동, 권한 관리
DAG 권한 관리 절차	사용자/팀별 DAG 접근
대량 DAG 운영 절차	2000명 사용자, namespace/SA 분리
Airflow DB 백업/복구 절차	metadata DB 보호
Airflow upgrade 절차	DB migration, plugin 호환성

11.4 JupyterLab / Sandbox SOP

SOP 항목	설명
사용자 sandbox 생성 절차	namespace, PVC, SA, quota
JupyterLab 기동 실패 대응	pod pending, image pull, PVC mount
사용자 권한 변경 절차	namespace/RBAC/S3 policy
개인 PVC 증설 절차	요청 승인, quota 확인
세션 종료/정리 절차	idle timeout, 자원 회수
사용자 환경 이미지 변경 절차	base image, package, security scan
Notebook S3 접근 장애 대응	credential, endpoint, TLS
사용자 오프보딩 정리 절차	PVC, secret, service account, S3 prefix

12. Scheduler / Queue / Multi-tenant SOP

SOP 항목	설명
Kueue Queue 생성 절차	cohort, resource flavor, quota
YuniKorn Queue 생성 절차	root/app queue, user/group quota
사용자/팀별 quota 부여 절차	CPU/memory/GPU/storage limit
Queue 우선순위 변경 절차	운영/긴급/배치 workload 우선순위
Job Pending 대응	quota 부족, queue admission 실패
Queue starvation 대응	특정 팀 job 장기 대기
Resource preemption 대응	우선순위에 따른 job 중단
대량 batch job 대응	burst control, admission control
특정 사용자 과다 사용 대응	quota 조정, throttling
Scheduler 설정 변경 절차	영향도 검토, rollback
Fair sharing 점검 절차	사용자/팀별 리소스 사용량 분석

13. Backup / Restore / DR SOP

SOP 항목	설명
etcd 백업 절차	snapshot 생성, 암호화, 보관
etcd 복구 절차	control plane 복구
Git repository 백업 절차	GitOps 원천 데이터 보호
Keycloak 백업 절차	realm, client, user federation 설정
Keycloak 복구 절차	인증 서비스 복구
ArgoCD 백업 절차	app/project/repo credential
Jenkins 백업 절차	job, credential, plugin, workspace 기준
Prometheus 백업 절차	rule, config, 장기 metric 필요 시
Grafana 백업 절차	dashboard, datasource
OpenSearch 백업 절차	snapshot repository, index restore
Airflow DB 백업 절차	DAG 이력, connection, variable
Longhorn volume backup 절차	volume별 backup/restore
AIStor bucket replication/backup 절차	중요 bucket 보호
DR 전환 절차	주요 서비스 복구 순서
DR 모의훈련 절차	정기 restore test
백업 무결성 검증 절차	checksum, restore rehearsal
RPO/RTO 기준 관리 절차	서비스별 복구 목표 정의

14. 변경 작업계획서 표준 Case

작업계획서는 SOP보다 더 구체적으로 “이번 작업을 어떻게 할 것인가”에 초점을 둬야 합니다. 아래 case들은 표준 작업계획서 템플릿으로 만들어두는 게 좋습니다.

작업계획서 Case	포함할 내용
Kubernetes 노드 추가	대상 노드, 역할, label/taint, 검증
Kubernetes 노드 제거	drain, workload 이관, cluster 제거
Kubernetes 노드 재기동	순서, 영향 서비스, rollback
OS/kernel 패치	사전 점검, drain, reboot, 검증
Cilium 업그레이드	버전, 영향, BGP/network 확인
Cilium 설정 변경	변경값, 영향, rollback
Ingress Controller 설정 변경	reload 영향, TLS 검증
인증서 갱신	대상 cert, 만료일, 교체 방식
Keycloak 설정 변경	realm/client/role 변경 영향
OPA 정책 변경	dry-run, audit, 차단 영향
ArgoCD app 추가/변경	repo/path/revision/sync 정책
Jenkins pipeline 변경	검증 단계, rollback
Registry/Nexus artifact 반입	파일 목록, checksum, scan 결과
AIStor disk 교체	대상 disk, EC set, heal 확인
AIStor bucket/policy 변경	대상 bucket, prefix, 권한 영향
AIStor ILM 변경	대상 prefix, 이동/삭제 조건, 초기 처리
AIStor tier 추가	hot/warm target, replication/ILM 영향
Longhorn volume 확장	PVC, workload 영향, 검증
OpenSearch index lifecycle 변경	retention, rollover, delete 영향
Airflow DAG 대량 배포	validation, rollback, scheduler 영향
Spark/Trino/StarRocks 설정 변경	catalog, resource, endpoint 영향
사용자 sandbox 대량 생성	namespace, quota, SA, PVC
DR 훈련 작업계획	복구 순서, 검증 기준, 중단 범위
대규모 점검 작업	작업 freeze, 알림, checkpoint, rollback

15. 장애 SOP 우선순위 Top 30

장애 SOP가 거의 없다면 아래부터 먼저 만드는 것을 추천합니다.

우선순위	장애 SOP
1	K8s Node NotReady 대응
2	Pod CrashLoopBackOff 대응
3	Pod Pending / FailedScheduling 대응
4	PVC Pending / FailedMount 대응
5	Cilium BGP session flap 대응
6	Pod 간 통신 장애 대응
7	DNS 장애 대응
8	Ingress 502/503/504 대응
9	TLS 인증서 오류 대응
10	Keycloak 로그인 장애 대응
11	LDAP/OIDC 연동 장애 대응
12	RBAC/OPA 오차단 대응
13	AIStor drive offline 대응
14	AIStor disk 교체 및 healing 대응
15	AIStor read/write quorum error 대응
16	AIStor 특정 pod 5xx 증가 대응
17	AIStor IAM/STS 인증 장애 대응
18	AIStor ILM/Replication 실패 대응
19	Longhorn volume degraded/faulted 대응
20	OpenSearch disk watermark / shard unassigned 대응
21	Fluent Bit 로그 수집 장애 대응
22	Prometheus target down / scrape 실패 대응
23	Grafana datasource 장애 대응
24	ArgoCD sync 실패 / degraded 대응
25	Jenkins pipeline 실패 대응
26	ImagePullBackOff / Registry 장애 대응
27	Airflow DAG 실패 / scheduler 지연 대응
28	Spark job 실패 / executor OOM 대응
29	Trino/StarRocks query 성능저하 대응
30	대량 알람 폭주 / 장애상황 커뮤니케이션 SOP

16. SOP 문서별 공통 목차

각 SOP는 아래 형식으로 통일하는 게 좋습니다.

1. 목적
2. 적용 범위
3. 담당 조직 / 담당자
4. 사전 조건
5. 영향도
6. 관련 시스템
7. 판단 기준
8. 절차
   8.1 1차 확인
   8.2 상세 확인
   8.3 조치
   8.4 복구 확인
9. 롤백 / 원복 절차
10. 장애 확대 기준
11. 커뮤니케이션 기준
12. 점검 명령어
13. 관련 대시보드
14. 관련 로그 위치
15. 관련 알람
16. 사후 조치
17. 변경 이력

장애 SOP는 여기에 아래 항목을 추가하는 것이 좋습니다.

- 증상
- 영향 범위
- 심각도 분류
- 즉시 완화 조치
- 근본 원인 분석 절차
- 재발 방지 항목
- 벤더 문의 시 첨부 자료

17. 실제 정비 순서 추천

처음부터 모든 SOP를 완벽히 만들기보다 아래 순서가 현실적입니다.

장애 대응 Top 30부터 작성
일일/주간/월간 점검 SOP 작성
변경 작업계획서 표준 템플릿 작성
AIStor / Cilium / Keycloak / GitOps / Observability 중심으로 상세화
각 Alert에 SOP 링크 연결
Git에 Markdown으로 저장
OpenSearch/RAG/LLM Wiki에 인덱싱
장애 발생 후 Postmortem 결과를 SOP에 반영

특히 귀사 환경에서는 아래 5개 영역을 가장 먼저 정리하는 게 좋습니다.

1. AIStor / MinIO 장애 SOP
2. Cilium / Ingress / DNS 장애 SOP
3. 인증 / Keycloak / LDAP / OIDC 장애 SOP
4. GitOps / Jenkins / ArgoCD 변경 SOP
5. Observability / 로그 / 알람 기반 분석 SOP

이 5개가 정리되면, 운영자가 바뀌거나 야간 장애가 발생해도 “어디서부터 확인해야 하는지”가 훨씬 명확해집니다.

Young-Kyoo Kim

engineer

이전 포스트

26M18b

다음 포스트