26J09d

아래는 “정책별로 AIStor에서 실제로 무엇을 설정해야 하는가” 중심으로 정리한 것입니다. 전제는 말씀하신 대로 WORM/Object Lock 미사용, 별도 DR 미구성, Hot NVMe ObjectStore + Warm SATA/SSD ObjectStore 분리입니다. 업로드하신 2-Tier 가이드도 Replication과 ILM Tiering을 독립 ...

약 8시간 전
·
0개의 댓글
·

26J09c

업로드하신 2026-05-29 AIStor 2-Tier 가이드 기준으로 보면, 지금 환경에서는 “버킷별 3분류”보다 한 단계 더 세밀하게 워크로드·prefix·데이터 수명 단계별 정책으로 나누는 게 맞습니다. 특히 StarRocks, Spark, ETL, Airflow

약 9시간 전
·
0개의 댓글
·

26J09b

업로드하신 2026-05-29 2-Tier 가이드와 AIStor 공식 문서를 기준으로 보면, 지금 상황에서는 Warm Tier를 “하나의 기능”으로 보지 말고, 버킷별로 3개 정책군으로 나눠 운영하는 것이 맞습니다. 핵심 결론은 이렇습니다. 특히 중요한 점은 ILM Tiering과 Replication은 목적이 다르다는 것입니다. Tiering은 Hot...

약 9시간 전
·
0개의 댓글
·

26J09a

다시 정리하면, 지금 비교 대상은 아래 두 가지입니다. 제 최종 판단은 이렇습니다. 단기 구축성과 운영 단순성은 2안이 좋지만, hot tier와 warm tier가 모두 계속 pool 추가로 커질 예정이라면 목표 아키텍처는 1안, 즉 Kubernetes 클러스터 분리가 더 타당합니다. 다만 “당장 별도 K8s 클러스터를 만들 여력이 없다면” 2안으로...

약 9시간 전
·
0개의 댓글
·

26J05a

아래 방향을 권장합니다. 결론부터 말하면, Warm Tier는 기존 128노드 NVMe Hot AIStor ObjectStore에 pool로 붙이지 말고, 별도 AIStor ObjectStore로 구성하는 것이 좋습니다. 가능하면 별도 Kubernetes 클러스터, 최소한 같은 K8s 안이라도 별도 namespace / 별도 ObjectStore / 전용...

4일 전
·
0개의 댓글
·

26J03b

가능합니다. 다만 현재 집 PC는 “로컬 LLM 서버”가 아니라 “agentic AI 개발·검증용 홈랩 서버”로 보는 게 맞습니다. LLM 추론은 당장은 클라우드 API + 작은 로컬 모델 병행, 회사 반입용 코드는 OpenAI-compatible/local LLM으로 교체 가능하게 추상화하는 방향이 좋습니다. 1. 현재 PC로 가능한 범위 10년 된 ...

6일 전
·
0개의 댓글
·

26J03a

그 목표라면, 책 선택과 개인 프로젝트 방향을 조금 바꾸는 게 좋겠습니다. 이제 기준은 “AI 에이전트를 배워보자”가 아니라 “집에서 만든 agentic AI 운영 플랫폼을 개인 서비스와 회사 air-gap AIOps에 동시에 재활용할 수 있게 만들자”가 되어야 합니다. 제 결론은 다음입니다. 구매 우선순위는 ⑤ → ⑥ → ⑦ → ④ → ① 순서가 좋습...

6일 전
·
0개의 댓글
·

26J02b

Vault는 단순히 “Git에 Secret을 안 넣기 위한 저장소”라기보다, 운영 관점에서는 자격증명 발급기관 + 내부 CA + KMS/암호화 서비스 + 감사/통제 지점으로 많이 씁니다. 특히 Kubernetes/GitOps 환경에서는 “정적 Secret 보관”보다 짧은 수명의 동적 Secret 발급 쪽이 더 큰 가치가 있습니다. 1. 가장 많이 쓰는 용...

2026년 6월 1일
·
0개의 댓글
·

26J02a

제 의견은 “GitOps를 1차 복구 수단으로 두고, Velero는 Git으로 재생성되지 않는 런타임 상태만 선별 백업”하는 구조가 가장 좋습니다. 즉, Velero를 “클러스터 전체 덤프 도구”로 쓰기보다 namespace/app 단위 운영 백업 + PV 일부 백업 + DR 검증 도구로 쓰는 게 맞습니다. 1. 전체 백업 체계는 4계층으로 나누는 게 좋...

2026년 6월 1일
·
0개의 댓글
·

26J01a

결론부터 말하면, “계속 root 계정을 자유롭게 쓰겠다”로 주장하면 보안팀/인프라팀 설득이 어렵습니다. 대신 아래처럼 잡는 게 좋습니다. > **Kubernetes 노드는 일반 애플리케이션 서버가 아니라 클러스터 제어면/데이터면의 일부이므로, Kubespray 기반 설치·업그레이드·노드 증설·장애복구·CNI/런타임/커널 튜닝에는 root-equivale...

2026년 5월 31일
·
0개의 댓글
·

26M29d

strong_bias가 나오면, 바로 전 노드에 튜닝값을 뿌리기보다 원인이 IRQ/RSS 편중인지, Cilium/터널/flow hash 특성인지, softirq budget 부족인지, NIC ring 부족인지를 분리해서 한 노드에서 검증하는 게 안전합니다.strong_

2026년 5월 29일
·
0개의 댓글
·

26M29c

네, 96개 core가 모두 NIC IRQ/NET_RX 처리에 실제로 참여하고 있다면, bias 판단의 기준 분모를 96으로 잡아도 됩니다. 다만 /proc/interrupts는 “CPU별/디바이스별 interrupt 누적 횟수”라서, 모든 core에 값이 있다는 것과

2026년 5월 29일
·
0개의 댓글
·

26M29b

대략적인 기준은 이렇게 잡으면 됩니다.96 core 전체를 기준으로 균등해야 한다고 보면 안 되고, 실제 RX queue/IRQ가 배정된 “active core 수”를 기준으로 봐야 합니다. RSS/RPS는 receive 처리를 여러 CPU로 분산하기 위한 구조지만,

2026년 5월 29일
·
0개의 댓글
·

26M29a

/proc/softirqs는 CPU별 누적 카운터라서 그대로 보면 비교가 어렵습니다.아래처럼 interval 동안 얼마나 증가했는지를 계산해서 per second로 바꿔 보는 게 좋습니다.장애 분석에서는 우선 NET_RX부터 보면 됩니다.출력 예시는 이런 식입니다.이렇

2026년 5월 29일
·
0개의 댓글
·

26M26c

가장 먼저 현재 PVC 전수조사(kubectl get pvc -A) 후 workload 유형 분류를 하고, 그에 맞게 StorageClass를 설계하는 순서를 권장합니다. 특정 workload(예: Kafka on K8s, Prometheus 장기보존 등)에 대해 더

2026년 5월 25일
·
0개의 댓글
·

26M26b

Cloud-Native Data Lakehouse 운영 체계 설계 전체 구조 개요 Phase 1 — 기반 정비 (즉시 착수) 1-1. Git Repository 구조 설계 단일 거대 repo보다 목적별 분리 + cross-reference 구조 권장: 핵심 원칙: 모든 변경은 PR → 리뷰 → merge (직접 push 금지) 장애/변경 문서는 P...

2026년 5월 25일
·
0개의 댓글
·

26M26a

Git을 단일 진실 원천으로 두되, Git에 없는 “현재 상태”는 실시간 관측 데이터와 K8s API에서 가져오고, LLM은 변경 실행자가 아니라 “증거 기반 운영 판단 보조자”로 먼저 둔다. > 즉, 1단계 목표는 자동 변경이 아니라 정확한 현황 파악, 영향도 분석, 장애 시 의사결정 지원, 인수인계 가능한 운영 지식 체계입니다. 1. 최신 경향을 반영...

2026년 5월 25일
·
0개의 댓글
·

26M22c

아래와 같은 방향을 추천합니다. 핵심은 “운영 요청, 변경, 장애, 권한, 백업, 문서, 형상”을 각각 따로 관리하지 않고, Git을 중심으로 하나의 운영 시스템으로 연결하는 것입니다. 당장 목표 구조는 다음입니다. > 표준 요청은 Golden Path로 자동화하고, 비표준·고위험 요청은 변경관리로 승격하며, 장애는 PIR/Postmortem을 통해 ...

2026년 5월 22일
·
0개의 댓글
·

26M22b

제공해주신 내용은 MinIO 내부 컴포넌트 간의 통신 메커니즘(gridConn, RPC) 및 서킷 브레이커 작동 방식이 언급된 매우 심층적인 내부 진단 메시지입니다.상대방은 현재 발생한 오류 메세지가 "실제 데이터 유실이나 유저 서비스 장애(Failures)가 아니라,

2026년 5월 22일
·
0개의 댓글
·

26M22a

결론부터 말하면, 그대로 “일괄 적용”은 비추천입니다.다만 AIStor 전용 storage node이고, 트래픽이 host network / 전용 data network 위주라면 가이드의 상당수는 적용해도 됩니다. 대신 25G×2 bond = 항상 50G처럼 동작한다고

2026년 5월 22일
·
0개의 댓글
·