26M27a

Young-Kyoo Kim·2026년 3월 27일

500~1000대 노드의 대규모 멀티클러스터, 그리고 폐쇄망(On-premise Air-gapped) 환경에서의 Cloud Native Data Lakehouse 운영은 단순한 자동화를 넘어 'Platform Engineering' 관점의 정교한 설계가 필요합니다.

Harness(Platform) Engineering의 핵심은 재사용성, 격리, 그리고 가시성입니다. Bitbucket에서 GitOps와 AIOps를 동시에 수용할 수 있는 전형적인 디렉토리 구조를 제안해 드립니다.

📂 Cloud Native Platform Unified Repository 구조

/ (Root)
├── .harness/                   # CI/CD 파이프라인 정의 (Harness 전용)
├── apps/                       # 서비스별 애플리케이션 소스 (Data Lakehouse 관련)
├── infrastructure/             # 플랫폼 기반 인프라 관리 (IaC)
│   ├── terraform/              # 노드 및 네트워크 프로비저닝 (RHEL 10, VM 등)
│   └── kubevirt/               # 가상화 리소스 관리 (VMI, DataVolume)
├── platform/                   # 플랫폼 서비스 설정 (GitOps/Helm/Kustomize)
│   ├── core/                   # 핵심 계층 (Cilium, OpenEBS, CNPG, Kyverno, OPA)
│   ├── storage/                # 데이터 계층 (MinIO AIStor)
│   ├── security/               # 인증/인가 (Keycloak)
│   ├── registry/               # 이미지/패키지 관리 (Nexus, Harbor)
│   ├── cicd/                   # 배포 도구 (ArgoCD, Jenkins)
│   └── observability/          # 모니터링 (Prometheus, Grafana, OpenSearch)
├── clusters/                   # 멀티클러스터별 타겟 설정 (ArgoCD App-of-Apps 패턴)
│   ├── cluster-prod-01/        # 운영 클러스터 01 설정
│   └── cluster-dev-01/         # 개발 클러스터 01 설정
├── operations/                 # AIOps 및 운영 데이터 관리 (중요)
│   ├── docs/                   # SOP, 작업계획서, 장애관리 (Markdown 기반)
│   ├── knowledge-base/         # RAG용 원천 데이터 (BM25/LLM 인덱싱 타겟)
│   ├── ai-ops/                 # LangChain 프롬프트, LLM 파이프라인, 모델 메타데이터
│   └── reports/                # 성능/운영 결과 (iperf3, fio, health-check 로그 저장)
├── policies/                   # 거버넌스 관리 (Kyverno, OPA 정책)
└── scripts/                    # 관리용 유틸리티 (Nexus 업로드, EE 빌드 스크립트)

1. 핵심 설계 원칙 및 고려사항

① GitOps 중심의 형상 관리 (ArgoCD 연계)

platform/ vs clusters/ 분리: 플랫폼 서비스의 공통 템플릿(Helm/Kustomize)은 platform/에 두고, 각 클러스터별 특화 변수(Value 파일)는 clusters/ 하위에서 관리합니다. 500대 이상의 노드를 관리할 때는 App-of-Apps 또는 ApplicationSet 패턴이 필수적입니다.

② 폐쇄망(Air-gapped) 최적화

scripts/ 내 Proxy 관리: 외부 이미지를 내부 Nexus/Harbor로 미러링하는 스크립트와 EE(Execution Environment) 빌드 정의서를 이곳에서 관리합니다.
로컬 경로 참조: platform/ 내의 모든 차트와 이미지는 인터넷 주소가 아닌 내부 Nexus 주소를 참조하도록 하드코딩하거나 템플릿화합니다.

③ AIOps를 위한 데이터 구조 (`operations/`)

문서의 자산화: SOP와 장애관리 문서를 Markdown(.md)으로 관리하면 Git Diff를 통해 변경 이력을 추적할 수 있을 뿐만 아니라, LangChain의 Loader가 즉시 읽어 들여 벡터 DB(OpenSearch)에 인덱싱하기 매우 유리합니다.
RAG 피드백 루프: 운영 중 발생한 reports/ 내의 성능 점검 결과(fio, iperf3 로그)를 LLM이 분석하여 "현재 네트워크 대역폭 저하로 인한 MinIO 성능 저하 발생 가능성" 등을 추론하게 합니다.

④ 보안 및 정책 거버넌스 (`policies/`)

Kyverno/OPA: 멀티클러스터 환경에서 모든 Pod과 네트워크 설정을 검증합니다. 예를 들어, "모든 MinIO Pod은 반드시 지정된 DirectPV 스토리지 클래스를 사용해야 함" 같은 정책을 소스코드로 관리합니다.

2. AIOps 연동 시나리오

데이터 수집: operations/reports/에 Ansible로 수행한 노드 점검 결과(JSON)가 저장됩니다.
임베딩: operations/docs/의 작업계획서와 최신 보고서를 LangChain이 읽어 벡터화합니다.
AIOps 질의: 운영자가 "최근 Cluster-A의 MinIO Latency 증가 원인이 뭐야?"라고 물으면, LLM이 fio 결과와 Cilium 네트워크 로그를 교차 분석하여 SOP에 기반한 해결책을 제시합니다.

3. 요약된 기술 사양 (Technical Specs)

[Slide 가이드 적용]

클라우드 네이티브 플랫폼 저장소 전략

GitOps 기반 멀티클러스터 통합 제어

Markdown 중심 운영 문서 자산화 및 RAG 최적화

폐쇄망 인프라 도구(Nexus/Harbor) 내장 설계

AIOps 연동을 위한 성능 리포트 데이터 레이크화

다음 단계로 무엇을 도와드릴까요?

"위 구조를 바탕으로 실제 operations/docs/에 들어갈 장애 대응 SOP의 Markdown 템플릿을 만들어 드릴까요?"
"ArgoCD가 clusters/ 폴더를 읽어 들여 플랫폼을 배포하는 ApplicationSet 예시 코드가 필요하신가요?"
"LangChain이 reports/ 폴더의 JSON을 읽기 위한 Python 로더 스크립트를 짜 드릴까요?"

===

대규모 멀티클러스터와 AIOps(RAG/BM25) 환경을 고려한 장애 대응 SOP(Standard Operating Procedure) Markdown 템플릿입니다.

이 템플릿은 단순한 문서화를 넘어, LLM이 구조적으로 파싱하기 좋도록 메타데이터(YAML Front-matter)를 포함하고 있으며, 명사형 종결 어미를 사용하여 전문성을 높였습니다.

📂 `operations/docs/sop/SOP-MINIO-LATENCY-001.md`

---
id: SOP-MINIO-LATENCY-001
title: MinIO AIStor I/O 지연시간 상승 대응 절차
category: Storage / Performance
severity: Critical
tags: [MinIO, DirectPV, fio, RHEL10]
target_clusters: [all-clusters]
last_updated: 2026-03-28
---

# [SOP] MinIO AIStor I/O Latency 임계치 초과 대응

## 1. 장애 정의 및 감지 조건 (Detection)
* **현상:** MinIO Read/Write Latency가 20ms 이상 지속 발생함.
* **감지:** Prometheus 알람(`minio_s3_requests_ttfb_seconds_avg` > 0.02) 발생.
* **영향:** Data Lakehouse 쿼리 성능 저하 및 애플리케이션 타임아웃 유발.

## 2. 긴급 확인 사항 (Quick Check List)
* [ ] **Cilium Status:** 노드 간 eBPF 네트워크 패킷 드랍 여부 확인 (`cilium status`).
* [ ] **DirectPV Drive:** 특정 디스크의 하드웨어 에러(Bad Sector) 여부 (`kubectl directpv list`).
* [ ] **Resource Usage:** 해당 노드의 CPU/Memory Steal 비율 확인.

## 3. 단계별 조치 절차 (Response Steps)

### Step 1: 인프라 계층 진단 (Infrastructure)
* **네트워크 대역폭 확인:** `iperf3`를 이용한 노드 간 Throughput 측정.
* **디스크 I/O 프로파일링:** `fio` 실행을 통한 물리 디스크 성능 측정.
  - 실행 명령: `fio --name=chk --rw=randrw --bs=4k --direct=1 --filename=/mnt/directpv/test`
  - 기대 수치: IOPS 50,000 이상, Latency 1ms 이하 유지 여부 확인.

### Step 2: 서비스 계층 조치 (Application)
* **MinIO Healing 상태 점검:** 데이터 재균형 작업(Healing) 중인지 확인 (`mc admin heal`).
* **로그 분석:** `mc admin trace`를 통한 특정 버킷/오브젝트 병목 현상 추적.

### Step 3: 리소스 격리 및 복구 (Recovery)
* **노드 드레인:** 성능 저하 노드를 스케줄링 제외 처리 (`kubectl drain <node_name>`).
* **DirectPV 드라이브 교체:** 장애 드라이브 물리적 교체 후 재등록.

## 4. AIOps 연동용 키워드 (RAG/BM25 Indexing)
> **LLM 인덱싱 가이드:** 본 문서는 MinIO의 성능 저하와 DirectPV/Cilium의 상관관계를 다룸. 
> `fio` 결과값이 기준치 미달일 경우 하드웨어 결함으로 판단하는 로직을 포함함.

---
## 5. 관련 장애 이력 (Related Incidents)
* #INC-20260115: 특정 RHEL 10 커널 파라미터 미적용으로 인한 I/O 병목 사례.
* #INC-20260210: Cilium MTU 불일치로 인한 패킷 파편화 사례.

💡 이 템플릿의 특징 (Platform Engineering 관점)

YAML Front-matter 활용: 상단의 --- 사이의 정보는 AIOps 시스템이 문서를 분류하고 우선순위를 정하는 메타데이터로 활용됩니다. (예: severity: Critical인 문서 우선 검색)
구조화된 섹션: '감지-확인-조치-복구'로 이어지는 표준 흐름을 유지하여 운영자의 판단 착오를 방지합니다.
코드 스니펫 포함: 실제 터미널에서 쳐야 할 명령어(fio, mc)를 포함하여 대응 시간을 단축합니다.
RAG 최적화: 4. AIOps 연동용 키워드 섹션을 통해 LLM이 문서를 요약하거나 답변을 생성할 때 참조해야 할 핵심 컨텍스트를 명시합니다.

🛠 다음 단계 제안

"이 SOP에 기반하여 실제 장애가 발생했을 때 AWX에서 자동으로 fio 점검을 수행하는 '자동 대응 템플릿' 구성을 보여드릴까요?"
"SOP 문서들을 자동으로 읽어 OpenSearch 벡터 DB에 넣는 LangChain 파이프라인 코드가 필요하신가요?"
"다른 구성 요소(Keycloak, Cilium 등)에 대한 SOP 예시도 추가로 만들어 드릴까요?"

===

SOP(SOP-MINIO-LATENCY-001)를 기반으로 장애 감지 시 AWX가 자동으로 fio 점검을 수행하고 결과를 리포팅하는 자동 대응 워크플로우를 설계해 드립니다.

이 구성은 Prometheus Alertmanager → AWX Webhook → Ansible Playbook → Slack/AIOps Report 순으로 이어지는 'Closed-loop' 구조입니다.

1. AWX 자동 대응 아키텍처 (Workflow)

감지: Prometheus가 MinIO Latency 임계치 초과 감지.
트리거: Alertmanager가 AWX의 Workflow Job Template으로 Webhook 발송.
수행: AWX가 해당 장애 노드에 fio 점검 전용 플레이북 실행.
분석: 점검 결과(JSON)를 /operations/reports/에 저장하고 AIOps(LLM)에 요약 요청.

2. Ansible Playbook: `diagnose_minio_latency.yml`

이 플레이북은 SOP의 Step 1(인프라 진단)을 코드로 구현한 것입니다.

---
- name: "[Auto-Response] MinIO Latency Diagnosis"
  hosts: "{{ target_node }}"
  become: yes
  vars:
    fio_test_path: "/mnt/directpv/test_file"
    report_path: "/var/log/ansible/fio_reports"

  tasks:
    - name: "SOP Step 1.1: Create Report Directory"
      file:
        path: "{{ report_path }}"
        state: directory

    - name: "SOP Step 1.2: Run FIO Performance Test"
      command: >
        fio --name=latency_chk --rw=randrw --bs=4k --ioengine=libaio --direct=1 
        --filename={{ fio_test_path }} --runtime=30 --group_reporting --output-format=json
      register: fio_result

    - name: "SOP Step 1.3: Save Result as JSON for AIOps"
      copy:
        content: "{{ fio_result.stdout }}"
        dest: "{{ report_path }}/fio_{{ inventory_hostname }}_{{ ansible_date_time.iso8601 }}.json"

    - name: "SOP Step 1.4: Analyze Latency and Alert"
      set_fact:
        avg_lat: "{{ (fio_result.stdout | from_json).jobs[0].read.lat_ns.mean / 1000000 }}" # ns to ms

    - name: "Post-Check: Send Results to AIOps Channel"
      uri:
        url: "https://internal-aiops-gateway/ingest"
        method: POST
        body_format: json
        body:
          issue_id: "SOP-MINIO-LATENCY-001"
          node: "{{ inventory_hostname }}"
          measured_latency: "{{ avg_lat }}ms"
          raw_data_path: "{{ report_path }}"
          status: "{{ 'CRITICAL' if avg_lat|float > 20 else 'NORMAL' }}"

3. AWX 설정 (Workflow Job Template)

AWX UI에서 다음과 같이 자동화 템플릿을 구성합니다.

① Credentials 설정

Machine Credential: 이전에 생성한 Infra-SSH-Key (모든 노드 접속용).
Vault Credential: 보고서 서버 접속 정보 등을 암호화하여 저장.

② Job Template 생성 (`TPL-DIAG-MINIO-LATENCY`)

Inventory: Data-Lakehouse-Inventory
Project: Bitbucket-Infra-Repo
Playbook: diagnose_minio_latency.yml
Allow Callbacks: 체크 (Webhook 연동 필수)

③ Webhook 연동 (Alertmanager -> AWX)

AWX Job Template의 Webhook 탭을 활성화하고, Alertmanager 설정(alertmanager.yaml)에 아래 내용을 추가합니다.

receivers:
- name: 'awx-webhook'
  webhook_configs:
  - url: 'https://awx.internal/api/v2/job_templates/TPL-DIAG-MINIO-LATENCY/callback/'
    http_config:
      bearer_token: '<AWX_TOKEN>'

4. AIOps(RAG) 연동을 위한 데이터 흐름

이 자동 대응 템플릿이 완료되면 다음과 같은 데이터 레이크가 형성됩니다.

입력: fio 결과 JSON 파일이 /operations/reports/에 쌓임.
연결: LangChain 기반의 AIOps Agent가 새 파일 생성을 감지.
추론: "SOP-MINIO-LATENCY-001 가이드에 따르면 기준치는 1ms인데, 현재 측정치는 25ms임. 하드웨어 교체 권고"라는 인사이트를 자동으로 생성.

💡 실무 팁 (폐쇄망 환경)

Image Proxy: fio 패키지가 노드에 없을 경우를 대비해, 플레이북 첫 단계에 dnf install -y fio를 넣되, 반드시 내부 Nexus/Harbor 레포지토리를 바라보도록 설정해야 합니다.
Cleanup: 테스트용 파일(test_file)은 점검 직후 반드시 삭제하는 로직을 always 핸들러로 추가하세요.

다음 단계로 무엇을 도와드릴까요?

"위에서 언급한 AIOps Agent용 LangChain Python 코드를 짜 드릴까요?"
"RHEL 10 노드들에 fio를 미리 배포해두는 Provisioning Role이 필요하신가요?"
"AWX에서 장애 발생 시 Slack이나 Keycloak 연동 알림 설정을 구체화해 드릴까요?"

===

500~1000대 노드 규모의 멀티클러스터 환경에서 Keycloak(인증)과 Cilium(네트워크)은 전체 플랫폼의 생존과 직결되는 핵심 요소입니다. AIOps(RAG)가 문서를 읽고 정확한 판단을 내릴 수 있도록 구조화된 Markdown SOP 템플릿 2종을 추가로 설계해 드립니다.

📂 1. Keycloak 인증 지연 및 장애 대응 SOP

이 문서는 PostgreSQL(CNPG) 의존성과 JVM 힙 메모리 문제를 중점적으로 다룹니다.

`operations/docs/sop/SOP-KEYCLOAK-AUTH-001.md`

---
id: SOP-KEYCLOAK-AUTH-001
title: Keycloak 사용자 인증 지연 및 접속 불가 대응
category: Identity / Security
severity: High
tags: [Keycloak, Quarkus, CNPG, PostgreSQL]
target_clusters: [mgmt-cluster, prod-cluster]
last_updated: 2026-03-28
---

# [SOP] Keycloak Auth Latency 및 서비스 가용성 장애

## 1. 장애 정의 및 감지 조건 (Detection)
* **현상:** Login 페이지 로딩 5초 초과 또는 5xx 에러 발생.
* **감지:** Prometheus Alert(`keycloak_request_duration_bucket` > 2s) 발생.
* **영향:** 전체 Data Lakehouse 플랫폼 접근 차단 (SSO 불능).

## 2. 긴급 확인 사항 (Quick Check List)
* [ ] **DB Health:** CloudNativePG(CNPG) 클러스터 상태 확인 (`kubectl cnpg status`).
* [ ] **Pod Restart:** Keycloak Pod의 Restart Count 증가 여부 및 OOMKilled 확인.
* [ ] **Network:** Keycloak과 DB 노드 간 레이턴시 확인.

## 3. 단계별 조치 절차 (Response Steps)

### Step 1: DB 커넥션 풀 및 락(Lock) 점검
* **현상 진단:** DB 세션이 가득 찼는지 확인.
* **실행 명령:** `kubectl exec -it <cnpg-pod> -- psql -c "SELECT count(*) FROM pg_stat_activity;"`
* **기준치:** 설정된 `max_connections`의 80% 초과 시 커넥션 리크(Leak) 의심.

### Step 2: JVM 힙 메모리 분석
* **조치:** Keycloak(Quarkus)의 GC 활동량 확인.
* **명령:** `kubectl logs <keycloak-pod> | grep -i "GC pause"`
* **해결:** 일시적 부하일 경우 Pod 수평 확장(HPA) 강제 수행 (`kubectl scale deployment keycloak --replicas=5`).

### Step 3: 에어갭 환경 이미지 체크
* **확인:** Nexus Proxy를 통한 이미지 풀링 지연 여부 확인.

## 4. AIOps 연동용 키워드 (RAG/BM25 Indexing)
> **LLM 가이드:** Keycloak 장애의 70%는 배후 DB(PostgreSQL)의 성능 저하에서 기인함. 
> 인증 지연 발생 시 가장 먼저 CNPG의 트랜잭션 락 상태를 검색할 것.

---
## 5. 관련 장애 이력
* #INC-20260220: 사용자 세션 급증으로 인한 DB Connection Timeout 사례.

📂 2. Cilium 네트워크 패킷 드랍 대응 SOP

멀티클러스터 환경에서 eBPF 기반 네트워크의 복잡성을 해결하기 위한 SOP입니다.

`operations/docs/sop/SOP-CILIUM-NW-001.md`

---
id: SOP-CILIUM-NW-001
title: Cilium eBPF 기반 노드 간 통신 유실(Packet Drop) 대응
category: Network / Connectivity
severity: Critical
tags: [Cilium, eBPF, Hubble, MTU, Hubble-Relay]
target_clusters: [all-clusters]
last_updated: 2026-03-28
---

# [SOP] Cilium Network Connectivity 및 패킷 드랍 장애

## 1. 장애 정의 및 감지 조건 (Detection)
* **현상:** 서비스 간 통신 Timeout 혹은 대역폭 급감.
* **감지:** Hubble 데이터 기반 패킷 드랍 감지 (`hubble observe --kind drop`).
* **영향:** 클러스터 전체 통신 마비 및 분산 스토리지(MinIO) 데이터 동기화 실패.

## 2. 긴급 확인 사항 (Quick Check List)
* [ ] **Cilium Agent:** 모든 노드의 Cilium Agent가 `Ready` 상태인지 확인.
* [ ] **BGP/Direct Routing:** 노드 간 라우팅 테이블 정상 여부 확인.
* [ ] **MTU Check:** 터널링(VXLAN) 환경에서의 MTU 불일치 여부.

## 3. 단계별 조치 절차 (Response Steps)

### Step 1: Hubble을 이용한 실시간 드랍 분석
* **명령:** `cilium hubble observe --last 100 --kind drop`
* **분석:** 드랍 사유(Reason) 필드 확인 (예: `policy-denied`, `auth-required`).

### Step 2: eBPF 맵(Map) 상태 점검
* **명령:** `cilium status --host` 및 `cilium bpf endpoint list`
* **조치:** 특정 노드의 엔드포인트 맵이 꼬였을 경우 해당 Cilium Pod 재시작.

### Step 3: 정책(NetworkPolicy) 검증
* **확인:** Kyverno나 OPA에 의해 강제된 정책이 실시간 트래픽을 차단하고 있는지 대조.

## 4. AIOps 연동용 키워드 (RAG/BM25 Indexing)
> **LLM 가이드:** Cilium 장애는 `policy-denied`와 `stack-drop` 구분이 핵심임. 
> Hubble 로그에서 `REASON` 필드를 최우선으로 파싱하여 정책 문제인지 하드웨어 문제인지 분류할 것.

---
## 5. 관련 장애 이력
* #INC-20260310: 노드 증설 중 VXLAN MTU 1450 미설정으로 인한 패킷 파편화 사례.

💡 AIOps 인덱싱 전략 제언

위와 같이 작성된 Markdown 파일들을 Bitbucket에 저장하면 다음과 같은 흐름으로 관리할 수 있습니다.

GitOps 연동: SOP 내용이 수정되면 Git Diff를 통해 변경 이력이 남고, 승인된 문서만 실제 운영 환경에 적용됩니다.
RAG 인덱싱: operations/ai-ops/에 위치한 스크립트가 정기적으로 이 .md 파일들을 읽어 OpenSearch 벡터 저장소에 tags와 YAML 메타데이터를 기반으로 저장합니다.
전문가 답변: 장애 발생 시 LLM이 "SOP-CILIUM-NW-001에 따르면, 현재 Hubble 로그의 드랍 사유가 MTU 문제일 가능성이 85%입니다"라고 답변하게 됩니다.

다음으로 무엇을 도와드릴까요?

"이 SOP들을 기반으로 실제 운영 데이터를 수집하는 Python(LangChain) 데이터 로더 코드를 보여드릴까요?"
"Keycloak이나 Cilium 장애 시 AWX가 실행할 Ad-hoc 진단 플레이북이 필요하신가요?"
"멀티클러스터 통합 대시보드(Grafana)의 구성안을 잡아드릴까요?"

===

500~1000대 규모의 RHEL 10 멀티클러스터 환경에서는 패키지 설치 하나도 하위 의존성과 폐쇄망 레포지토리 상태를 고려해야 합니다. 특히 fio는 성능 측정 시 필수적이므로, 모든 노드에 표준화된 버전이 깔려 있어야 AIOps 가동 시 정확한 벤치마킹 데이터를 얻을 수 있습니다.

이를 위해 Ansible Role 구조로 설계된 Provisioning 코드를 제안해 드립니다.

📂 Role 구조: `roles/infra_provisioning_fio`

roles/infra_provisioning_fio/
├── tasks/
│   └── main.yml          # 실제 설치 로직
├── vars/
│   └── main.yml           # 패키지 명칭 및 내부 레포 주소
├── templates/
│   └── local_fio.repo.j2  # (선택) 폐쇄망용 내부 레포 설정 템플릿
└── defaults/
    └── main.yml           # 기본값 설정

1. `tasks/main.yml` (설치 로직)

RHEL 10은 최신 dnf를 사용하므로, 내부 Nexus Proxy를 바라보도록 설정된 상태에서 설치를 진행합니다.

---
- name: "Check if FIO is already installed"
  command: fio --version
  register: fio_check
  ignore_errors: yes
  changed_when: false

- name: "Ensure Internal Repository is configured (Air-gapped)"
  template:
    src: local_fio.repo.j2
    dest: /etc/yum.repos.d/internal_nexus.repo
    owner: root
    group: root
    mode: '0644'
  when: is_airgapped | default(true)

- name: "Install FIO via DNF (Nexus Proxy)"
  dnf:
    name: "{{ fio_package_name }}"
    state: present
    disable_gpg_check: yes  # 사설 레포지토리 사용 시 필요할 수 있음
  when: fio_check.rc != 0

- name: "Create FIO Reporting Directory"
  file:
    path: "/var/log/ansible/fio_reports"
    state: directory
    mode: '0755'

- name: "Verify FIO Installation"
  command: fio --version
  register: fio_verify
  failed_when: fio_verify.rc != 0

2. `templates/local_fio.repo.j2` (폐쇄망 레포 설정)

노드들이 인터넷이 안 되므로, 미리 구축하신 Nexus Proxy를 바라보게 강제하는 설정입니다.

[internal-baseos]
name=Internal BaseOS Proxy
baseurl=https://{{ nexus_url }}/repository/rhel10-baseos-proxy/
enabled=1
gpgcheck=0

[internal-appstream]
name=Internal AppStream Proxy
baseurl=https://{{ nexus_url }}/repository/rhel10-appstream-proxy/
enabled=1
gpgcheck=0

3. `defaults/main.yml` (변수 정의)

환경에 맞춰 수정 가능한 기본값들입니다.

---
fio_package_name: "fio"
nexus_url: "nexus.internal.lan"  # 실제 내부 Nexus 주소로 변경
is_airgapped: true

4. Playbook에서 Role 호출 (`site_provisioning.yml`)

전체 클러스터 노드에 대해 이 Role을 실행합니다.

---
- name: "Provisioning FIO on All Nodes"
  hosts: all_nodes
  become: yes
  roles:
    - infra_provisioning_fio

💡 실무 운영 포인트 (Platform Engineering)

Idempotency (적정성): 이미 설치되어 있다면 스킵하도록 fio_check 로직을 넣었습니다. 1000대 노드 배포 시 시간을 획기적으로 단축합니다.
RHEL 10 호환성: RHEL 10은 Crypto Policy가 강화되어 있습니다. 만약 Nexus가 너무 오래된 SSL 알고리즘을 쓴다면 dnf 설치가 실패할 수 있으니, 사전에 Nexus의 SSL 인증서를 최신화하거나 노드의 update-ca-trust에 등록하는 작업을 선행해야 합니다.
AIOps 준비: /var/log/ansible/fio_reports 디렉토리를 미리 생성해 둡니다. 나중에 AWX가 자동 대응 시 여기에 결과를 쓰고, LangChain이 이 경로를 Watcher로 감시하게 됩니다.

🛠 다음 단계 제안

"이 Role을 AWX의 'Provisioning Workflow'에 등록하는 방법을 보여드릴까요?"
"FIO 설치 후 전체 노드의 I/O 성능을 한 번에 측정해서 리포트를 뽑는 'Baseline Playbook'이 필요하신가요?"
"Nexus에 RHEL 10 패키지를 미러링하는 구체적인 스크립트가 필요하신가요?"

===

500~1000대 노드 규모에서 fio 배포와 같은 Provisioning Role을 개별적으로 실행하는 것보다, 전체 인프라 구축의 한 단계로 AWX Workflow Job Template에 등록하여 관리하는 것이 훨씬 효율적입니다.

특히 폐쇄망 환경에서는 '레포지토리 설정 -> 패키지 설치 -> 보안 설정 -> 검증'의 연쇄 과정을 시각적으로 관리할 수 있습니다.

1. AWX Workflow 구성 설계 (Visual Workflow)

AWX의 Workflow Editor에서 다음과 같은 순서로 노드를 배치합니다.

Project Sync: 최신 Ansible Role 코드를 Bitbucket에서 가져옴.
Infra Setup (Role): OS 기본 설정 및 Nexus 레포지토리 연동.
FIO Provisioning (Role): 앞서 만든 infra_provisioning_fio 실행. (성공 시 다음 단계)
Verification: 모든 노드에서 fio --version 체크 및 대시보드 업데이트.

2. AWX 등록 단계별 가이드

① Job Template 생성

먼저 Workflow에 넣을 각각의 '부품(Job Template)'을 만듭니다.

Name: TPL-INFRA-FIO-PROVISIONING
Inventory: Target-Node-Inventory (500~1000대 노드 포함)
Project: Bitbucket-Infra-Repo
Playbook: site_provisioning.yml (위에서 만든 Role을 호출하는 메인 파일)
Credentials: Machine Credential (SSH 키), Vault Credential (필요 시)

② Workflow Job Template 생성 및 편집

Resources > Templates > Add > Add workflow job template 클릭.
Visualizer 탭으로 이동하여 Start 노드 옆의 + 버튼 클릭.
위에서 만든 TPL-INFRA-FIO-PROVISIONING을 선택.
Convergence: Any 또는 All 설정 (멀티노드 작업 시 중요).

3. 대규모 환경(1000대 노드) 최적화 설정

AWX에서 수천 대의 노드에 Provisioning을 돌릴 때 반드시 체크해야 할 성능 옵션입니다.

설정 항목	권장 값	이유
Forks	`50 ~ 100`	동시에 통신할 노드 수. 서버 자원에 맞춰 상향 조정.
Gathering	`smart`	이미 수집된 팩(Fact)이 있다면 재사용하여 시간을 단축함.
Timeout	`3600` (1시간)	대규모 배포 시 네트워크 병목을 고려하여 넉넉히 설정.
Enable Webhook	`Checked`	배포 성공/실패 여부를 외부(Slack/AIOps)로 즉시 알림.

4. AIOps 연동을 위한 '성공 후 작업'

Workflow의 마지막 단계에 '인벤토리 업데이트' 또는 'AIOps 지식베이스 갱신' 스크립트를 추가하면 좋습니다.

Success Node: AIOps-Knowledge-Update (HTTP API 호출)
내용: "현재 1000대 노드에 FIO v3.x 설치 완료. 이제부터 모든 노드에서 I/O 장애 대응 SOP 가동 가능."이라는 메시지를 LLM용 벡터 DB에 전달.

💡 실무 팁: 폐쇄망에서의 실패 대응

만약 특정 노드에서 dnf install이 실패한다면, 높은 확률로 Nexus Proxy와의 일시적 통신 오류입니다. 이 경우 Workflow에서 'On Failure' 라인을 뽑아 Retry-Inventory-Update 노드를 연결해두면, 실패한 노드만 따로 모아 재시도할 수 있습니다.

다음으로 무엇을 도와드릴까요?

"1000대 노드의 초기 I/O 성능 기준값(Baseline)을 뽑아 리포트로 만드는 플레이북을 보여드릴까요?"
"AWX에서 실패한 노드만 골라내어 재시도(Retry)하는 자동화 전략이 필요하신가요?"
"AIOps가 이 배포 결과를 인지하도록 만드는 LangChain 연동 가이드를 드릴까요?"

===

1000대 규모의 노드에서 Baseline(기준점)을 잡는 것은 향후 장애 발생 시 "정상 상태"와 비교하기 위한 가장 중요한 데이터 자산이 됩니다.

이 플레이북은 모든 노드에서 fio를 동시 실행하고, 그 결과(JSON)를 관리 서버(AWX/Bastion)로 수집하여 하나의 통합 리포트로 만드는 구조입니다.

📂 Baseline Playbook: `generate_io_baseline.yml`

이 플레이북은 각 노드에서 테스트를 수행한 후, 결과를 fetch 모듈로 수집하여 로컬에서 파싱합니다.

---
- name: "[Baseline] Multi-Node I/O Performance Measurement"
  hosts: all_nodes
  become: yes
  vars:
    test_dir: "/mnt/directpv/baseline"
    result_dir: "/tmp/fio_results"
    local_report_dir: "./reports/baseline_{{ ansible_date_time.date }}"
    fio_size: "1G"  # 노드 수에 따라 조정 (1000대 동시 실행 시 스토리지 부하 주의)

  tasks:
    - name: "1. Prepare Test Environment"
      file:
        path: "{{ item }}"
        state: directory
      loop:
        - "{{ test_dir }}"
        - "{{ result_dir }}"

    - name: "2. Run FIO Baseline (Random Read/Write)"
      command: >
        fio --name=baseline_test --directory={{ test_dir }}
        --rw=randrw --bs=4k --direct=1 --size={{ fio_size }}
        --ioengine=libaio --iodepth=64 --group_reporting
        --output-format=json --output={{ result_dir }}/{{ inventory_hostname }}.json
      async: 600   # 1000대 동시 실행 시 타임아웃 방지 (비동기)
      poll: 10

    - name: "3. Collect Results to Management Server"
      fetch:
        src: "{{ result_dir }}/{{ inventory_hostname }}.json"
        dest: "{{ local_report_dir }}/"
        flat: yes

    - name: "4. Cleanup Test Data"
      file:
        path: "{{ item }}"
        state: absent
      loop:
        - "{{ test_dir }}/baseline_test.0.0"
        - "{{ result_dir }}/{{ inventory_hostname }}.json"

- name: "[Post-Process] Consolidate Reports for AIOps"
  hosts: localhost
  connection: local
  tasks:
    - name: "Summarize All Results into CSV"
      shell: |
        echo "Hostname,Read_IOPS,Write_IOPS,Read_Lat_ms,Write_Lat_ms" > {{ local_report_dir }}/summary.csv
        for f in {{ local_report_dir }}/*.json; do
          if [ -f "$f" ]; then
            HOSTNAME=$(basename "$f" .json)
            READ_IOPS=$(jq '.jobs[0].read.iops' "$f")
            WRITE_IOPS=$(jq '.jobs[0].write.iops' "$f")
            READ_LAT=$(jq '.jobs[0].read.lat_ns.mean / 1000000' "$f")
            WRITE_LAT=$(jq '.jobs[0].write.lat_ns.mean / 1000000' "$f")
            echo "$HOSTNAME,$READ_IOPS,$WRITE_IOPS,$READ_LAT,$WRITE_LAT" >> {{ local_report_dir }}/summary.csv
          fi
        done
      args:
        executable: /bin/bash

    - name: "Notify AIOps for RAG Indexing"
      debug:
        msg: "Baseline Report generated at {{ local_report_dir }}/summary.csv. Ready for LLM Analysis."

🛠 대규모 환경(1000대) 실행 시 주의사항

1. 스토리지 집중 부하 (Thundering Herd)

1000대 노드가 동시에 공유 스토리지나 백엔드 네트워크에 1GB씩 쓰기를 시도하면 인프라 전체가 마비될 수 있습니다.

해결책: AWX Job 설정에서 Serial 값을 조정하세요.
예: serial: "10%" (한 번에 100대씩 순차 진행)

2. 비동기 처리 (`async` & `poll`)

SSH 연결이 끊기더라도 테스트가 완료될 때까지 기다릴 수 있도록 async 설정을 적용했습니다. 1000대 규모에서는 필수입니다.

3. 결과 수집 및 파싱

fetch 모듈: 각 노드의 JSON 파일을 관리 서버로 가져옵니다.
jq 활용: 수집된 수천 개의 JSON을 jq를 이용해 하나의 CSV로 합칩니다. 이 CSV는 나중에 RAG(Retrieval-Augmented Generation) 시스템이 "정상 범주"를 학습하는 기본 데이터셋이 됩니다.

📊 AIOps 활용 시나리오

이 플레이북으로 생성된 summary.csv는 다음과 같이 활용됩니다.

Baseline 등록: LLM에게 "우리 클러스터의 평균 Read Latency는 0.8ms야"라고 학습시킵니다.
이상 감지: 나중에 특정 노드에서 5ms가 나오면, LLM은 "Baseline 대비 6배 증가함. 네트워크 이슈 가능성 70%"라고 리포팅합니다.
작업계획서 자동 생성: "성능이 Baseline 이하인 노드 5대에 대한 커널 튜닝 작업 계획서를 작성해줘"라고 요청할 수 있습니다.

다음으로 무엇을 도와드릴까요?

"수집된 CSV 데이터를 OpenSearch(AIOps DB)에 자동으로 업로드하는 파이프라인이 필요하신가요?"
"이 결과를 바탕으로 Grafana에 성능 분포도(Heatmap)를 그리는 법을 알려드릴까요?"
"RHEL 10의 I/O 성능을 최적화하는 Kernel Tuning Role이 필요하신가요?"

===

1000대 노드에서 수집된 summary.csv 데이터를 OpenSearch(AIOps DB)에 적재하는 파이프라인은 데이터의 '검색 가능성'과 '시계열 분석'을 모두 충족해야 합니다.

폐쇄망 환경임을 고려하여, 외부 라이브러리 의존성을 최소화한 Python(LangChain + OpenSearch-Py) 기반의 업로드 스크립트와 이를 자동화하는 AWX Job 구성안을 제안합니다.

1. 데이터 파이프라인 아키텍처 (Data Flow)

데이터 소스: Ansible Baseline Playbook이 생성한 ./reports/summary.csv
변환 및 로드 (ETL): Python 스크립트가 CSV의 각 행(Row)을 JSON 문큐먼트로 변환.
적재 (Sink): 내부망에 구축된 OpenSearch 클러스터의 특정 인덱스(perf-baseline-idx)에 bulk API로 전송.
AIOps 활용: LangChain이 이 인덱스를 참조하여 "정상 범주"를 인식.

2. Python 업로드 스크립트: `ingest_to_opensearch.py`

이 스크립트는 CSV 데이터를 OpenSearch가 이해할 수 있는 벡터/검색 친화적 구조로 변환하여 업로드합니다.

import csv
import json
from datetime import datetime
from opensearchpy import OpenSearch, helpers

# 1. OpenSearch 연결 설정 (폐쇄망 내부망 주소)
client = OpenSearch(
    hosts=[{'host': 'opensearch.internal.lan', 'port': 9200}],
    http_auth=('admin', 'your_password'), # Keycloak 연동 시 토큰 사용 가능
    use_ssl=True,
    verify_certs=False # 사설 인증서 사용 시
)

INDEX_NAME = "infra-performance-baseline"

def csv_to_generator(file_path):
    with open(file_path, mode='r', encoding='utf-8') as f:
        reader = csv.DictReader(f)
        for row in reader:
            # AIOps 검색을 위한 메타데이터 보강
            yield {
                "_index": INDEX_NAME,
                "_source": {
                    "timestamp": datetime.utcnow().isoformat(),
                    "hostname": row['Hostname'],
                    "metrics": {
                        "read_iops": float(row['Read_IOPS']),
                        "write_iops": float(row['Write_IOPS']),
                        "read_lat_ms": float(row['Read_Lat_ms']),
                        "write_lat_ms": float(row['Write_Lat_ms'])
                    },
                    "os_version": "RHEL 10",
                    "description": f"Baseline performance data for {row['Hostname']}"
                }
            }

# 2. Bulk 업로드 실행
try:
    print(f"Starting ingestion to {INDEX_NAME}...")
    success, failed = helpers.bulk(client, csv_to_generator('./reports/summary.csv'))
    print(f"Successfully indexed {success} documents. Failed: {failed}")
except Exception as e:
    print(f"Error during ingestion: {e}")

3. AWX Workflow 통합 (자동화)

이제 Baseline 측정부터 DB 업로드까지 하나의 Workflow로 묶습니다.

Workflow 단계 구성:

Node A (Job): generate_io_baseline.yml (FIO 측정 및 CSV 생성)
Node B (Job - On Success): upload_to_opensearch.yml
- 이 플레이북은 내부적으로 위 ingest_to_opensearch.py를 실행합니다.
- Runtime Environment: AWX의 EE(Execution Environment) 이미지에 opensearch-py 라이브러리가 포함되어 있어야 합니다.

# upload_to_opensearch.yml
- name: "Upload Baseline Data to AIOps DB"
  hosts: localhost
  tasks:
    - name: "Run Ingestion Script"
      command: python3 ingest_to_opensearch.py
      args:
        chdir: "./operations/ai-ops/"

4. AIOps(LangChain)에서의 활용 방안

데이터가 OpenSearch에 적재되면, LangChain의 OpenSearchVectorSearch를 통해 다음과 같은 질문이 가능해집니다.

질문: "현재 Cluster-01의 평균 Write Latency가 얼마야? Baseline과 비교해줘."
LLM의 사고 과정:
1. OpenSearch의 infra-performance-baseline 인덱스에서 최근 데이터를 쿼리.
2. write_lat_ms의 평균값을 계산.
3. Baseline(정상치: 0.8ms)과 현재 측정치(1.5ms)를 비교.
4. 답변: "현재 1.5ms로 Baseline 대비 약 87% 증가했습니다. 네트워크 대역폭 점검이 필요합니다."

💡 실무 운영 팁 (Air-gapped)

인증서 관리: OpenSearch가 사설 인증서를 사용한다면, 스크립트 실행 환경(EE)의 /etc/pki/ca-trust/source/anchors/에 루트 인증서를 미리 배포해두어야 통신 에러가 나지 않습니다.
인덱스 관리: Baseline 데이터는 한 번 적재 후 고정하는 것이 좋지만, 분기별로 성능이 변할 수 있으므로 timestamp 필드를 기준으로 최신 5개 데이터만 참조하도록 LangChain 프롬프트를 설계하세요.

다음으로 무엇을 도와드릴까요?

"OpenSearch에 저장된 이 데이터를 시각화하는 Grafana Dashboard JSON을 만들어 드릴까요?"
"LangChain이 이 데이터를 읽어서 보고서를 작성하게 하는 Prompt Template이 필요하신가요?"
"폐쇄망에서 opensearch-py를 포함한 커스트 EE(Execution Environment) 빌드 파일을 짜 드릴까요?"

===

폐쇄망(Air-gapped) 환경에서 Execution Environment(EE)를 구축하고 AWX에 등록하는 과정은 크게 [외부망: 다운로드] → [망간 전송] → [폐쇄망: 빌드 및 등록]의 3단계로 진행됩니다.

가져온 컬렉션을 어떻게 처리하고 AWX가 인식하게 만드는지 구체적인 절차를 정리해 드립니다.

1. 외부망에서 컬렉션 준비 (Download)

맥북이나 외부망 PC에서 필요한 컬렉션을 파일(.tar.gz) 형태로 내려받습니다.

# requirements.yml 작성
collections:
  - name: kubernetes.core
    version: 3.0.0
  - name: community.general

# 컬렉션 다운로드 (현재 폴더의 my_collections 폴더에 저장)
ansible-galaxy collection download -r requirements.yml -p ./my_collections

이제 my_collections 폴더 안의 파일들을 USB나 망간 전송 시스템을 통해 폐쇄망 빌드 서버로 옮깁니다.

2. 폐쇄망에서 EE 빌드 (Build with Ansible-Builder)

폐쇄망 서버로 가져온 컬렉션 파일들을 포함하여 EE 이미지를 굽습니다. 이때 ansible-builder를 사용합니다.

① `execution-environment.yml` 설정

가져온 로컬 파일 경로를 참조하도록 설정하는 것이 핵심입니다.

version: 3
images:
  base_image:
    name: "nexus.internal.lan/ansible/ansible-builder-rhel9:latest" # 내부 Nexus의 베이스 이미지

dependencies:
  galaxy: requirements.yml  # 아래에서 작성할 파일 참조
  python: requirements.txt  # opensearch-py 등 필요한 라이브러리

options:
  package_manager_path: /usr/bin/dnf

② `requirements.yml` 수정 (로컬 경로 참조)

인터넷이 안 되므로, 가져온 파일의 상대 경로를 직접 적어줍니다.

collections:
  - name: ./my_collections/kubernetes-core-3.0.0.tar.gz
  - name: ./my_collections/community-general-8.0.1.tar.gz

③ 빌드 및 푸시 (Build & Push)

# 이미지 빌드
ansible-builder build -t nexus.internal.lan/repository/ee/data-lakehouse-ee:v1.0

# 내부 레포지토리(Nexus/Harbor)에 푸시
podman push nexus.internal.lan/repository/ee/data-lakehouse-ee:v1.0

3. AWX에 EE 등록하기 (Registration)

이미지가 내부 레포지토리에 올라갔다면, 이제 AWX가 이 이미지를 사용하도록 설정해야 합니다.

AWX UI 접속: Administration > Execution Environments 메뉴로 이동합니다.
Add 버튼 클릭: 새로운 EE를 등록합니다.
- Name: Data-Lakehouse-EE-v1.0 (식별하기 쉬운 이름)
- Image: nexus.internal.lan/repository/ee/data-lakehouse-ee:v1.0 (실제 경로)
- Pull: Always 또는 Missing (폐쇄망 환경이므로 Missing 권장)
- Registry Credential: Nexus 접속을 위한 ID/PW가 저장된 AWX Credential을 선택합니다.
Save: 저장하면 등록 완료입니다.

4. Job Template에서 사용하기

이제 앞서 만든 Job Template 설정 화면에서 Execution Environment 항목을 방금 등록한 Data-Lakehouse-EE-v1.0으로 선택하면 됩니다.

이제 해당 Job이 실행될 때, AWX는 내부 레포지토리에서 이미지를 당겨와 컨테이너를 띄우고, 그 안에 이미 포함된 컬렉션들을 사용하여 Playbook을 실행합니다.

💡 실무 팁 (폐쇄망 최적화)

의존성 주의: 컬렉션 설치 시 의존성이 있는 다른 컬렉션이 있다면 그것도 함께 다운로드해서 가져와야 빌드 시 에러가 나지 않습니다. (ansible-galaxy collection download는 의존성을 자동으로 묶어줍니다.)
버전 관리: v1.0, v1.1 처럼 태그(Tag)를 명확히 관리하세요. AWX에서 특정 버전에 문제가 생겼을 때 이전 EE로 즉시 돌릴 수 있습니다.

다음 단계로 무엇을 도와드릴까요?

"컬렉션 외에 Python 라이브러리(pip)를 폐쇄망에서 설치하도록 EE를 구성하는 방법이 궁금하신가요?"
"빌드된 EE 이미지를 Harbor나 Nexus에 효율적으로 관리하는 폴더 구조가 필요하신가요?"
"AWX에서 EE가 이미지를 못 당겨올 때 체크해야 할 인증서(SSL) 설정을 알려드릴까요?"

Young-Kyoo Kim

engineer

이전 포스트

26M26a

다음 포스트

26M27a

📂 Cloud Native Platform Unified Repository 구조

1. 핵심 설계 원칙 및 고려사항

① GitOps 중심의 형상 관리 (ArgoCD 연계)

② 폐쇄망(Air-gapped) 최적화

③ AIOps를 위한 데이터 구조 (operations/)

④ 보안 및 정책 거버넌스 (policies/)

2. AIOps 연동 시나리오

3. 요약된 기술 사양 (Technical Specs)

클라우드 네이티브 플랫폼 저장소 전략

📂 operations/docs/sop/SOP-MINIO-LATENCY-001.md

💡 이 템플릿의 특징 (Platform Engineering 관점)

🛠 다음 단계 제안

1. AWX 자동 대응 아키텍처 (Workflow)

2. Ansible Playbook: diagnose_minio_latency.yml

3. AWX 설정 (Workflow Job Template)

① Credentials 설정

② Job Template 생성 (TPL-DIAG-MINIO-LATENCY)

③ Webhook 연동 (Alertmanager -> AWX)

4. AIOps(RAG) 연동을 위한 데이터 흐름

💡 실무 팁 (폐쇄망 환경)

📂 1. Keycloak 인증 지연 및 장애 대응 SOP

operations/docs/sop/SOP-KEYCLOAK-AUTH-001.md

📂 2. Cilium 네트워크 패킷 드랍 대응 SOP

operations/docs/sop/SOP-CILIUM-NW-001.md

💡 AIOps 인덱싱 전략 제언

📂 Role 구조: roles/infra_provisioning_fio

1. tasks/main.yml (설치 로직)

2. templates/local_fio.repo.j2 (폐쇄망 레포 설정)

3. defaults/main.yml (변수 정의)

4. Playbook에서 Role 호출 (site_provisioning.yml)

💡 실무 운영 포인트 (Platform Engineering)

🛠 다음 단계 제안

1. AWX Workflow 구성 설계 (Visual Workflow)

2. AWX 등록 단계별 가이드

① Job Template 생성

② Workflow Job Template 생성 및 편집

3. 대규모 환경(1000대 노드) 최적화 설정

4. AIOps 연동을 위한 '성공 후 작업'

💡 실무 팁: 폐쇄망에서의 실패 대응

📂 Baseline Playbook: generate_io_baseline.yml

🛠 대규모 환경(1000대) 실행 시 주의사항

1. 스토리지 집중 부하 (Thundering Herd)

2. 비동기 처리 (async & poll)

3. 결과 수집 및 파싱

📊 AIOps 활용 시나리오

1. 데이터 파이프라인 아키텍처 (Data Flow)

2. Python 업로드 스크립트: ingest_to_opensearch.py

3. AWX Workflow 통합 (자동화)

Workflow 단계 구성:

4. AIOps(LangChain)에서의 활용 방안

💡 실무 운영 팁 (Air-gapped)

1. 외부망에서 컬렉션 준비 (Download)

2. 폐쇄망에서 EE 빌드 (Build with Ansible-Builder)

① execution-environment.yml 설정

② requirements.yml 수정 (로컬 경로 참조)

③ 빌드 및 푸시 (Build & Push)

3. AWX에 EE 등록하기 (Registration)

4. Job Template에서 사용하기

💡 실무 팁 (폐쇄망 최적화)

26M26a

26M27b

0개의 댓글

③ AIOps를 위한 데이터 구조 (`operations/`)

④ 보안 및 정책 거버넌스 (`policies/`)

📂 `operations/docs/sop/SOP-MINIO-LATENCY-001.md`

2. Ansible Playbook: `diagnose_minio_latency.yml`

② Job Template 생성 (`TPL-DIAG-MINIO-LATENCY`)

`operations/docs/sop/SOP-KEYCLOAK-AUTH-001.md`

`operations/docs/sop/SOP-CILIUM-NW-001.md`

📂 Role 구조: `roles/infra_provisioning_fio`

1. `tasks/main.yml` (설치 로직)

2. `templates/local_fio.repo.j2` (폐쇄망 레포 설정)

3. `defaults/main.yml` (변수 정의)

4. Playbook에서 Role 호출 (`site_provisioning.yml`)

📂 Baseline Playbook: `generate_io_baseline.yml`

2. 비동기 처리 (`async` & `poll`)

2. Python 업로드 스크립트: `ingest_to_opensearch.py`

① `execution-environment.yml` 설정

② `requirements.yml` 수정 (로컬 경로 참조)