post-thumbnail

AWS 모니터링- Cloudwatch (Custom Metric, Lambda,S3)

AWS 서비스를 이용하여 ETL 작업을 진행하는 시스템에서 모니터링이 구축되어있지 않아 운영하는데 어려움을 겪고 있습니다. 사용하는 AWS 서비스로는 Lambda(300여개) , API Gateway, Glue(200여개 ),S3 입니다.  초기에는 당연히 AWS 서비

2022년 6월 15일
·
0개의 댓글
post-thumbnail

Model Train Job API 개발 - Kubernetes 환경

_ 1. 배경_ 쿠버네티스가 컨테이너 오케스트레이션 도구로 각광을 받은 이유 중 AI 환경에서의 편의성이 높은 점도 있다고 생각합니다. ML Pipeline 환경을 쿠버네티스에서 운영했을 때 학습,관리,배포를 모두 운영 할 수 있습니다. 이러한 각각의 오픈소스(Not

2022년 4월 27일
·
0개의 댓글
post-thumbnail

Kubeflow Componet 분석 #1 - Jupyter Notebook ( Notebook 권한 수정)

Kubeflow를 설치한 후 생성된 파드를 보면 다양한 컴포넌트들이 존재하는 것을 확인 할 수 있습니다. Kubeflow 기반의 플랫폼을 개발 하거나 정확하게 Kubeflow를 사용하기 위해서 각 컴포넌트들의 역할과 동작과정에 대한 이해가 필요하다고 느꼈습니다. 이를

2022년 4월 15일
·
0개의 댓글
post-thumbnail

Kubernetes 클러스터 설치 (kubeadm, offline 환경)

폐쇠망에서 Kubernetes 클러스터 구성해야하는 작업이 생겨서 이를 위한 테스트를 진행하였습니다. 이를 위한 과정을 기록합니다. 이를 위해 EC2를 사용하여 클러스터를 구성하고 폐쇠망 환경을 구현하기 위해 아웃바운드 정책으로 80, 443를 제외하였습니다. 전체적

2022년 4월 13일
·
1개의 댓글
post-thumbnail

Jenkins-Kubernetes CI/CD (with Nexus)

Application 개발 환경을 셋업하면서 CI/CD 툴에 대한 고려가 나왔습니다. Jenkins는 가장 유명한 CI/CD 툴 중 하나로 Jenkins를 이용해 이미지 빌드 부터 Kubernetes에 배포까지 할 수 있습니다. Docker, Kubernetes를 위한

2022년 3월 3일
·
0개의 댓글
post-thumbnail

도커 기본 사용법

_ 1. Overview _ 어느덧 입사를 한지 1년이 지나며 업무를 진행하면서 신입 후배 개발자나 인턴이 들어오기 시작했습니다. 저희 팀의 경우 쿠버네티스에서 배포되는 플랫폼을 개발하기 때문에 개발자가 쿠버네티스에 대한 지식은 어느정도 있어야 됩니다. 하지만 신입분

2022년 2월 27일
·
0개의 댓글
post-thumbnail

Kubeflow V1.4 설치 및 초기 설정(User 추가, CORS, dex DB 분리)

kubeflow의 경우 kubeflow manifest github를 통해 손쉽게 설치 할 수 있습니다. 우선 kubernetes cluster는 구성되어있다고 가정하고 kustomize를 설치해야됩니다.이후 프로젝트를 clone 한 후 매니페스트를 적용하면 됩니다.

2022년 2월 17일
·
0개의 댓글
post-thumbnail

Kubeflow 에서 안쓰는 노트북은 중지 시키자!!(Jupyter Notebook Culling)

ML/DL 등의 AI 학습을 하는 환경에서 하드웨어 리소스 관리는 중요한 이슈입니다. GPU, CPU 등 제한된 자원을 여러 사용자가 할당받아 사용하면서 낭비되는 사례는 굉장히 많습니다.특히 GPU의 가격이 비싼 만큼 사용할 수 있는 자원이 제한적이므로 많은 관리자가

2022년 2월 10일
·
0개의 댓글
post-thumbnail

Kubernetes API server OOM 장애기록

쿠버네티스 기반 AI Platform 개발을 마치고 운영하던 도중 kube-apiserver의 메모리 사용량이 지속적으로 증가하면서 Master node가 down 되는 현상이 반복되었습니다. 문제를 해결하기 위해 시도한 내용을 기록합니다. 회사 보안 상 문제 화면을

2022년 2월 8일
·
0개의 댓글
post-thumbnail

K8S에서 GPU를 사용하는 JOB 수행하기

이전 글에서 K8S-Nvidia Plugin 설치를 통해 GPU를 파드에서 사용하고, 파드를 GPU 서버에 스케줄링 하는 방법을 알아봤습니다. 더 나아가 K8S에서 Job을 통해 학습을 시키고, Jupyter notebook을 파드로 실행하는 과정을 알아보겠습니다.쿠버

2022년 2월 8일
·
0개의 댓글
post-thumbnail

python으로 EC2 관리하기

1\. overview 입사 후 EC2를 이용한 개발, 테스트를 진행하면서 많은 편의성을 느껴 자주 사용하게 되었습니다. 저희 회사는 AWS를 월 200$ 사용할 수 있는 계정을 제공하는데 관리를 제대로 못하다 보니 요금 제한을 넘은 적이 많았습니다. 다행히 회사에서

2021년 12월 21일
·
0개의 댓글
post-thumbnail

모니터링 시스템 구축#2- Custom Exporter 개발

1. Overview 프로메테우스를 이용해 모니터링 시스템을 구축하였습니다. 수집한 메트릭을 기반으로 그라파나로 시각화 해 모니터링을 진행하며 대부분의 메트릭은 오픈 소스로 공개되어있는 익스포터를 사용했습니다. 오라클용 DB 모니터링 용 Oracle-exporter,

2021년 11월 26일
·
0개의 댓글
post-thumbnail

모니터링 시스템 구축 기록

Overview 회사에서 빅데이터 시스템 개발을 진행하는 프로젝트에 참여하게 되었습니다. 규모가 있는 프로젝트에 참여하다 보니 빅데이터 시스템의 파이프라인에 해당하는(데이터 수집,DB 엔진,스토리지 등) 각각의 솔루션에 대한 통합 모니터링 시스템이 필요했습니다. 이를

2021년 9월 26일
·
0개의 댓글
post-thumbnail

S3 trigger로 Lamda 사용하기

S3를 사용하면서 csv파일이 S3로 업로드 되었을 때 다른 DB로 csv파일을 적재하는 과정을 수동으로 진행하면서 많은 불편함을 가졌습니다. 이를 자동화 하기 위해 S3와 DB를 연결 해주는 API 서버로 Flask를 이용하고 S3 트리거로 lamda를 사용하였습니다

2021년 9월 1일
·
0개의 댓글
post-thumbnail

Django 프로젝트 K8S 배포하기

Django 프레임워크를 통해 구현한 웹사이트가 어느 정도 완성되었습니다. 평소 구현이 완료 된 코드를 AWS EC2에서 실행시켜 접근 하였지만, 현재 제가 테스트용으로 사용하는 쿠버네티스 클러스터가 있어서 프로젝트를 쿠버네티스에서 배포 하고 싶은 마음이 생겨 시도해

2021년 5월 30일
·
0개의 댓글
post-thumbnail

Nexus Repository 구축 하기(docker,pypi,npm)

플랫폼 개발을 진행하며 docker image,package, helm 등의 자료를 공개적인 저장소가 아닌 사내에서 팀원들이 공유할 수 있는 Private Repository가 필요하게 되었다. 이를 위해 Nexus Repository를 설치하고 테스트 하는 과정을

2021년 5월 27일
·
0개의 댓글
post-thumbnail

Kubernetes 설치(With kubespray,EC2)

처음 입사 후 신설된 팀에 속하여 새로운 프로젝트 초기 단계에 투입하게 되었습니다. MSA 구조의 오픈소스로 구성된 플랫폼을 개발하기 위해 쿠버네티스는 필수였고 공부하며 테스트한 내용을 기록합니다. 쿠버네티스를 어디에 설치할 것인가? Bare-metal,Cloud

2021년 3월 28일
·
0개의 댓글