AWS 서비스를 이용하여 ETL 작업을 진행하는 시스템에서 모니터링이 구축되어있지 않아 운영하는데 어려움을 겪고 있습니다. 사용하는 AWS 서비스로는 Lambda(300여개) , API Gateway, Glue(200여개 ),S3 입니다. 초기에는 당연히 AWS 서비
_ 1. 배경_ 쿠버네티스가 컨테이너 오케스트레이션 도구로 각광을 받은 이유 중 AI 환경에서의 편의성이 높은 점도 있다고 생각합니다. ML Pipeline 환경을 쿠버네티스에서 운영했을 때 학습,관리,배포를 모두 운영 할 수 있습니다. 이러한 각각의 오픈소스(Not
Kubeflow를 설치한 후 생성된 파드를 보면 다양한 컴포넌트들이 존재하는 것을 확인 할 수 있습니다. Kubeflow 기반의 플랫폼을 개발 하거나 정확하게 Kubeflow를 사용하기 위해서 각 컴포넌트들의 역할과 동작과정에 대한 이해가 필요하다고 느꼈습니다. 이를
폐쇠망에서 Kubernetes 클러스터 구성해야하는 작업이 생겨서 이를 위한 테스트를 진행하였습니다. 이를 위한 과정을 기록합니다. 이를 위해 EC2를 사용하여 클러스터를 구성하고 폐쇠망 환경을 구현하기 위해 아웃바운드 정책으로 80, 443를 제외하였습니다. 전체적
Application 개발 환경을 셋업하면서 CI/CD 툴에 대한 고려가 나왔습니다. Jenkins는 가장 유명한 CI/CD 툴 중 하나로 Jenkins를 이용해 이미지 빌드 부터 Kubernetes에 배포까지 할 수 있습니다. Docker, Kubernetes를 위한
_ 1. Overview _ 어느덧 입사를 한지 1년이 지나며 업무를 진행하면서 신입 후배 개발자나 인턴이 들어오기 시작했습니다. 저희 팀의 경우 쿠버네티스에서 배포되는 플랫폼을 개발하기 때문에 개발자가 쿠버네티스에 대한 지식은 어느정도 있어야 됩니다. 하지만 신입분
kubeflow의 경우 kubeflow manifest github를 통해 손쉽게 설치 할 수 있습니다. 우선 kubernetes cluster는 구성되어있다고 가정하고 kustomize를 설치해야됩니다.이후 프로젝트를 clone 한 후 매니페스트를 적용하면 됩니다.
ML/DL 등의 AI 학습을 하는 환경에서 하드웨어 리소스 관리는 중요한 이슈입니다. GPU, CPU 등 제한된 자원을 여러 사용자가 할당받아 사용하면서 낭비되는 사례는 굉장히 많습니다.특히 GPU의 가격이 비싼 만큼 사용할 수 있는 자원이 제한적이므로 많은 관리자가
쿠버네티스 기반 AI Platform 개발을 마치고 운영하던 도중 kube-apiserver의 메모리 사용량이 지속적으로 증가하면서 Master node가 down 되는 현상이 반복되었습니다. 문제를 해결하기 위해 시도한 내용을 기록합니다. 회사 보안 상 문제 화면을
이전 글에서 K8S-Nvidia Plugin 설치를 통해 GPU를 파드에서 사용하고, 파드를 GPU 서버에 스케줄링 하는 방법을 알아봤습니다. 더 나아가 K8S에서 Job을 통해 학습을 시키고, Jupyter notebook을 파드로 실행하는 과정을 알아보겠습니다.쿠버
1\. overview 입사 후 EC2를 이용한 개발, 테스트를 진행하면서 많은 편의성을 느껴 자주 사용하게 되었습니다. 저희 회사는 AWS를 월 200$ 사용할 수 있는 계정을 제공하는데 관리를 제대로 못하다 보니 요금 제한을 넘은 적이 많았습니다. 다행히 회사에서
1. Overview 프로메테우스를 이용해 모니터링 시스템을 구축하였습니다. 수집한 메트릭을 기반으로 그라파나로 시각화 해 모니터링을 진행하며 대부분의 메트릭은 오픈 소스로 공개되어있는 익스포터를 사용했습니다. 오라클용 DB 모니터링 용 Oracle-exporter,
Overview 회사에서 빅데이터 시스템 개발을 진행하는 프로젝트에 참여하게 되었습니다. 규모가 있는 프로젝트에 참여하다 보니 빅데이터 시스템의 파이프라인에 해당하는(데이터 수집,DB 엔진,스토리지 등) 각각의 솔루션에 대한 통합 모니터링 시스템이 필요했습니다. 이를
S3를 사용하면서 csv파일이 S3로 업로드 되었을 때 다른 DB로 csv파일을 적재하는 과정을 수동으로 진행하면서 많은 불편함을 가졌습니다. 이를 자동화 하기 위해 S3와 DB를 연결 해주는 API 서버로 Flask를 이용하고 S3 트리거로 lamda를 사용하였습니다
Django 프레임워크를 통해 구현한 웹사이트가 어느 정도 완성되었습니다. 평소 구현이 완료 된 코드를 AWS EC2에서 실행시켜 접근 하였지만, 현재 제가 테스트용으로 사용하는 쿠버네티스 클러스터가 있어서 프로젝트를 쿠버네티스에서 배포 하고 싶은 마음이 생겨 시도해
플랫폼 개발을 진행하며 docker image,package, helm 등의 자료를 공개적인 저장소가 아닌 사내에서 팀원들이 공유할 수 있는 Private Repository가 필요하게 되었다. 이를 위해 Nexus Repository를 설치하고 테스트 하는 과정을
처음 입사 후 신설된 팀에 속하여 새로운 프로젝트 초기 단계에 투입하게 되었습니다. MSA 구조의 오픈소스로 구성된 플랫폼을 개발하기 위해 쿠버네티스는 필수였고 공부하며 테스트한 내용을 기록합니다. 쿠버네티스를 어디에 설치할 것인가? Bare-metal,Cloud