youngkyoo_kim (Young-Kyoo Kim)

youngkyoo_kim.log

Young-Kyoo Kim

engineer

글 시리즈 소개

태그 목록

전체보기(701)
test(1)
gemi(1)
grok(1)

전체보기 (701)test(1)gemi(1)grok(1)

26Y19x3

네, 100% 즉시 반영 가능합니다! 제공해 주신 step2pipeline.py 스크립트는 이미 dfslice.groupby(...).agg(...) 후 dfpod.with_columns(...) 파이프라인 구조를 완벽히 갖추고 있으므로, 해당 지수 연산 수식들을 그대로 이식할 수 있습니다. 다만, 수식에서 참조하는 변수 중 cpuusagemax와 me...

약 5시간 전

0개의 댓글

26Y19x2

요청하신 대로 시분초 단위를 배제하고 시간(Hour) 단위 범위를 직관적으로 지정할 수 있도록 파싱 및 인자 처리 로직을 수정했습니다. 이제 2026-07-20 11처럼 날짜와 시간(Hour)만 적거나, --date와 --start-hour, --end-hour 옵션을 조합하여 11:00:00 $\le$ $t$ < 12:00:00 범위를 손쉽게 제어할 수...

약 5시간 전

0개의 댓글

26Y19x

step1 수집 스크립트에서 하루 전체(24시간) 수집 대신 특정 시간대(Range)만 타겟팅하도록 파라미터 제어 로직을 추가한 소스 코드입니다. 프로메테우스/타노스 API 호출 시 필요한 Unix Epoch Timestamp 변환과 수집된 데이터를 Polars로 가공할 때의 시간 필터링까지 모두 처리할 수 있도록 argparse 인터페이스를 유연하게 구...

약 5시간 전

0개의 댓글

26Y19a1b

기존에 빌드해 두신 2단계 배치 파이프라인 구조가 아주 견고하게 잡혀 있네요. 1단계(Step 1)는 Thanos의 타임아웃을 박멸하면서 1시간 단위로 원천 데이터를 안전하게 확보(Extraction)하는 데 집중하고, 2단계(Step 2)는 Polars의 스트리밍 엔진을 활용해 메모리(256MB) 한계 내에서 일별 정산 및 지표 고도화(Aggregatio...

약 11시간 전

0개의 댓글

26Y23a

Air-Gapped(폐쇄망) 환경에서 사내 LLM을 활용해 DevOps/SRE의 생산성을 극대화하는 트렌드는 "단순 질의응답 챗봇"에서 "현장 테두리 안에서 작동하는 AIOps & RAG 기반의 AI-SRE 에이전트"로 크게 진화했습니다. 보유하신 스택(Cilium, MinIO, ArgoCD, Prometheus, OpenSearch, Kyverno, Va...

1일 전

0개의 댓글

26Y20a

{ "Rules": [ { "ID": "KeepOnlyOnePastVersionRule", "Status": "Enabled", "Filter": { "Prefix": "" }, "NoncurrentVersionExpiration": { "NoncurrentDays...

4일 전

0개의 댓글

26Y19c4

생산 환경(K8s)에서 이 실시간 에이전트를 안정적으로 구동하기 위해서는 단독 Pod보다는 자가 치유(Self-healing)와 롤링 업데이트가 보장되는 Deployment로 띄우는 것이 정석입니다. 특히 스크립트 내부에서 K8s API를 호출해 장애 포트의 로그 백로그(Tail)를 읽어오는 로직이 있으므로, 포드가 로그를 읽을 수 있도록 권한을 부여하는...

6일 전

0개의 댓글

26Y19c3

Alertmanager가 던지는 실시간 장애 웹훅을 수신하여 15분간의 인프라 메트릭을 Polars로 압축(2단계)하고, 이를 사내 LLM과 연동하여 슬랙 경보까지 일사천리로 사출(3단계)하는 실시간 JIT(Just-In-Time) RCA 에이전트 스크립트와 실행 방법입니다. 배치 파이프라인처럼 대용량 디스크 I/O를 유발하지 않도록, 메모리 상에서 모든...

6일 전

0개의 댓글

26Y19c2

실시간 1단계 핵심은 배치를 돌리던 Polars 엔진의 고차원 SRE 수식을 Prometheus가 실시간으로 이해할 수 있는 PromQL(Prometheus Query Language)로 번역하여, Kubernetes 환경의 PrometheusRule Custom Resource(CRD)로 선언형 등록을 진행하는 것입니다. 모니터링 스택(kube-prom...

6일 전

0개의 댓글

26Y19b1

일배치(Batch) 파이프라인이 전사 자원 최적화와 거시적 아키텍처 진단을 위한 '종합 건강검진'이라면, 실시간 이상징후 파악 및 원인 분석(RCA)은 사이트 가동 중단을 막는 '응급실 심폐소생술(CPR)'과 같습니다. 실시간 영역에서 가장 흔히 하는 실수가 "모든 지표와 로그 스트리밍을 LLM에 실시간으로 통과시키는 것"인데, 이는 비용 폭발과 추론 지...

6일 전

0개의 댓글

26Y19a8

정확한 지적입니다. 기존의 cpurequestmax, memusagep95 같은 지표들은 인간 엔지니어가 차트를 볼 때는 직관적이지만, 대규모 컨텍스트를 읽는 LLM 입장에서는 단순한 '정량적 파편'에 불과합니다. LLM에게 숫자 연산을 맡기면 "P95와 Max의 차이가 크므로..." 같은 모호한 추론에 그치기 쉽습니다. 디스크/네트워크와 마찬가지로, C...

6일 전

0개의 댓글

26Y19a7

현재 우리 데이터 레이크하우스 스택(K8s, Cilium, AIStor, Keycloak, StarRocks, Spark)의 특성을 고려할 때, 데이터 파이프라인에서 연산은 해두었지만 아직 시각화하지 않은 3가지 고부가가치 SRE 지표 차트를 추가하면 진단 리포트의 완성도를 극대화할 수 있습니다. 특히 이 차트들은 사내 LLM(step5)이 리포트를 작성...

6일 전

0개의 댓글

26Y19a6

step5llmdiagnoser.py가 생성한 dailycloudnativebehaviorreport.md 마크다운 보고서를 엑셀에 통합하기 가장 좋은 위치는 바로 0. 전사종합요약 시트의 하단 영역(33번 행 이후)입니다. 엑셀의 하나의 커다란 병합 셀에 통째로 글을 밀어 넣으면 텍스트가 잘리는 openpyxl 특유의 버그가 있으므로, 줄 바꿈(Line...

6일 전

0개의 댓글

26Y19a5

아, 새로 정립한 클라우드 네이티브 3대 섹션 구조(Cilium/DirectPV, Keycloak, Quota)를 대장 뼈대로 삼고, 그 하위에 엔진별(StarRocks, Spark, Airflow, PostgreSQL, AIStor) 아키텍처 메커니즘 지침을 조화롭게 배치했어야 했는데 구형 템플릿의 순서에 너무 얽매였습니다. 제 불찰입니다. 원하셨던 [...

6일 전

0개의 댓글

26Y19a4

방금 구축한 Polars & LLM 기반의 2차 정밀 워크로드 분석 스크립트는 기존 파이프라인 흐름에서 비어 있던 step5llmdiagnoser.py 자리에 배치하는 것이 아키텍처적으로 가장 완벽합니다. 이 단계는 앞단 step2가 정제해 둔 고해상도 분산 융합 데이터(dailyenriched*.parquet)를 소스로 삼아 동작하며, 결과물인 마크다운...

6일 전

0개의 댓글

26Y19a3

기존 step2 고도화 파이프라인에서 메모리 안전성과 속도를 극대화하기 위해 폴라(Polars)로 완벽하게 전환한 것처럼, 2차 심층 분석(Deep-Dive) 엔진의 데이터 적재 및 연산 레이어도 판다스 잔재를 완전히 걷어내고 Pure Polars 기반으로 마이그레이션을 완료했습니다. 특히 step2 마감 정산 단계에서 메모리 단위 보정(Bytes → G...

6일 전

0개의 댓글

26Y19a2

제공해주신 step3analytics.py와 step4governance_analyzer.py 코드를 앞서 고도화한 1.5단계 Polars 데이터 융합 파이프라인(v4 규격)과 대조해 보면, 현재 두 가지 치명적인 결전 요소(Breaking Mismatch)와 기능적 공백이 발견됩니다. 이 부분을 완벽히 무결하게 결합하기 위해 수정해야 할 핵심 포인트와 ...

6일 전

0개의 댓글

26Y19a1

지적하신 피드백이 전적으로 맞습니다. 1분 단위 고해상도로 멀티 클러스터의 전체 Pod 시계열을 긁어모으면 하루치 데이터만 해도 수백만 행에서 수천만 행에 육박하는 대용량 데이터셋이 빌드됩니다. 이 규모를 판다스(Pandas)로 아우터 조인하면 가비지 컬렉션 부하와 단일 스레드 제약으로 인해 SRE 배치 컨테이너 자체가 OOM(Out-Of-Memory)으로...

6일 전

0개의 댓글

26Y18c1

기존에 Kubernetes 오퍼레이션 컨트롤러 종류(StatefulSet, Deployment)로 추측했던 워크로드 개념을 데이터 레이크하우스 생태계의 실제 비즈니스 및 엔진 스택인 StarRocks(OLAP 분산 DB), Spark(분산 대용량 연산 엔진), Airflow(워크플로우 오케스트레이터), PostgreSQL(OLTP RDBMS) 등으로 전면 ...

6일 전

0개의 댓글

28Y18b13

대규모 AI 데이터 레이크하우스 환경에서 실시간 시계열 메트릭(Prometheus TSDB)의 시계열 카디널리티(Cardinality; 메트릭 조합의 수) 폭증 문제를 방지하면서도, 특정 버킷 및 내부 서브 프리픽스(Prefix) 구조별 오퍼레이션 특징을 명확히 추적할 수 있도록 전면 설계 리빌딩한 13. Bucket & Prefix Analytics (버...

6일 전

0개의 댓글