
on-prem + GCP 하이브리드 클러스터 구축기-2 에서의 Hybrid-Cluster 노드 오토스케일링 PoC는 다음 질문에서 출발했습니다. "On-prem GPU가 부족해지는 순간, Cloud GPU 노드를 자동으로 끌어쓸 수 있을까?"이를 검증하기 위해 우

on-prem + GCP 하이브리드 클러스터 구축기-1 에서 왜 Hybrid Cloud가 필요한지, 어떻게 On-prem ↔ Cloud 네트워크를 연결할지, 어떤 VPN 기술을 선택했는지 정리했어요.이제 다음 과제로 넘어갑니다.▶ Cloud GPU를 언제, 어떻게 자동

현재 제가 다니고 있는 기업에선 자체 인프라(On-prem Cluster)를 기반으로 고성능 AI 서비스를 제공하고 있습니다.이 전략은 많은 장점을 가져다주었습니다.GPU 관련 장기 운영 비용 절감내부망 기반의 데이터 보안 강화연산 시 로컬 지연 최소화인프라 운영 경험

입사 후 지금까지 1년 반이라는 긴 시간동안 사내 DevOps 플랫폼을 셋이서 열심히 구축하고 고도화 하였습니다. 하지만 최근 여럿 질문들과 피드백을 받으면서 우리가 너무 경주마처럼 앞만 보고 달렸다는 생각이 강하게 들었어요. DevOps의 본질인 소통을 강조하던 저는

쿠버네티스의 파드로 통하는 트래픽의 클라이언트 IP를 확인하고 싶은 개발자 파트로부터의 요구사항이 발생했습니다. 현재 Istio access log에는 요청의 X-Forwarded-For 헤더가 로깅되도록 설정되어있는데 실제로 확인해보면 172로 시작하는 알 수 없는

사내 플랫폼의 API Server를 개발하던 도중에 이상한 점을 발견하였습니다. API server의 CPU가 25코어 남짓을 잡아먹고 있던 것이었습니다. 실제로 CPU 사용률이 비정상적으로 높아지는 것을 확인했습니다.

이 글을 쓰게 된 계기 저희 DevOps팀에 하나의 문의사항이 왔습니다. "원래 쿠버네티스에선 새로운 버전의 파드가 띄워지고 정상이면 이전 버전의 파드가 삭제되는 것 아닌가요? 새로운 버전의 파드가 비정상인데 이전 파드가 지워져서 서버가 내려갔습니다." 그래서 저는

이번 포스트는 요즘 제가 공부하고 있는 테라폼에 대해 다뤄보려 합니다. 테라폼은 현시점 가장 강력한 IaC 도구로 자리매김 하였죠. 오늘은 현업에서 테라폼을 사용할 때 환경을 어떻게 격리하는지, 모듈화는 어떻게 하는지 알아보겠습니다.테라폼 상태란?상태 파일을 공유하기원

Gihub Actions?Github Actions의 구성요소Github Actions의 Workflow 문법실습Github Actions을 이용해 docker hub에 이미지 자동 pushServer instance 생성CDGithub Actions의 장점GitHub

지난 23년 5월 9일 AWS SAA-C03 시험을 보았고 합격하였습니다. 어떻게 자격증을 준비했는지와 자격증을 준비하면서 느낀점을 간략하게 정리해보는 글을 써보았습니다.AWS Certified Solutions Architect - Associate 약자로공식에서는

목표 docker compose의 use case docker network의 복습 docker compose가 사용하는 docker network를 알아보고 실제 여러 컨테이너가 통신할 수 있는 환경을 구축해본다. docker compose 이번 포스트는 docke

들어가며.. 지금까지 배운 AWS solution을 복습할 겸 여러 사용자 요구조건에 따라 어떤 AWS Service들을 사용해야 하는지를 정리해보았습니다. Example 1 현재 시각을 알려주는 서버를 설계한다. 요구사항 데이터베이스 없음 무상태 최초설계 ec2

Docker 도커 이야기를 더 해볼까요? 앞서 하이퍼바이저와 도커를 비교하면서 도커를 소개했습니다(링크). 가상머신에 비해 도커가 가볍고 빠르다는 것은 알았는데 만약 가상머신을 사용하지 않는 환경에서 도커를 도입하는 것은 무조건적으로 타당할까요? 도커를 사용하는

https://www.acmicpc.net/problem/22251N - 바꿀 숫자의 최대값K - 자리수P - 바꿀 수 있는 LED 최대 값X - 현재 층K 자리의 LED 숫자 중 P 개의 LED를 반전시켜 바뀐 숫자가 1 ~ N이 되도록 바꿀 수 있는 숫자의

https://www.acmicpc.net/problem/4179fireMap이라는 새로운 맵을 만들어 최대값으로 초기화 한 후 Fire이 가는 시간(거리)을 채운다.(예시 테스트케이스의 fireMap)지훈이 탈출할 수 있는 시간을 구한다.a. 탈출구간에 fi

https://www.acmicpc.net/problem/7682입력에 주어진 상태가 틱택토게임이 정상적으로 끝난 상태인지 묻는 문제였다.틱택토게임판의 크기가 3\*3의 작은 크기임을 이용해서 풀어야겠다고 생각했다.테스트케이스를 그림으로 그리면서 invalid

AWS를 공부하는 친구와 이것 저것 얘기하다가 EBS에 대한 얘기가 나왔습니다. 데이터를 저장소인데 무엇일까요?EBS는 Elastic Block Storage의 약자로 AWS에서 제공하는 블록 수준 스토리지 서비스입니다.EC2(Elastic Compute Cloud)

이 그림 많이 보신 적 있으시죠? Host OS위에 하이퍼바이저(Hypervisor)가 존재하고 있습니다. 그렇다면 하이퍼바이저는 뭘까요?하이퍼바이저는 가상 머신을 생성하고 구동하는 프로그램입니다.Virtual Machine(VM)이라 불리는 가상 머신은 물리적 컴퓨터

https://www.acmicpc.net/problem/21608문제를 간략하게 설명하자면 자리배정을 하는데 각 학생이 좋아하는 학생의 번호를 네 개 가지고 있고 입력 순서대로 자리를 배정한 뒤 학생의 만족도 총 합을 구하는 문제이다.자리를 배정하는 규칙은