profile
MLOps, MLE 직무로 일하고 있습니다😍
태그 목록
전체보기 (94)kubeflow(14)kubernetes(10)minikube(8)python(7)ubuntu(6)pipeline(6)k8s(5)vagrant(4)Nvidia(4)issue(4)쿠버네티스(4)mac(3)MinIO(3)컨테이너(3)Jetson Nano(3)push(3)docker(3)kubespray(2)인프라(2)container(2)aws(2)git(2)kfp(2)influxDB(2)df(2)gpu(2)image(2)Infra(2)온프레미스(2)linux(2)kubectl(2)cuda(2)CUDA 11.6(2)JETSON(2)Python SDK(2)class(2)PromQL(2)nfs(2)IaaS(2)우분투(2)CLEAN CODE(2)virtualbox(2)Argo(2)jetson ai specialist(1)dev(1)VRAM(1)importlib(1)df -h(1)Anaconda3(1)DVC(1)production(1)공유기(1)AutoML(1)environment(1)API(1)docker push(1)sh(1)kuberay(1)List(1)driver(1)TensorRT OSS(1)COCO(1)S3(1)loadbalancer(1)쿠버네티스 구성 요소(1)IOMMU(1)multi node(1)메트릭 데이터(1)influx-client(1)젯슨 나노(1)read_pickle(1)Full Monitoring Pipeline(1)network file system(1)통합(1)PVC(1)a5000(1)KFP SDK(1)DockerHub(1)nvcc(1)to_pickle(1)tf2(1)project(1)데이터 수집(1)nvcc --version(1)OPS(1)kvm2(1)kustomize(1)cuDNN 8.2.1(1)Ancible(1)cluster(1)Read(1)language(1)클린 코드(1)docekr(1)데코레이터(1)PV(1)데이터(1)tf1(1)artifact-repositories(1)동적 프로비저닝(1)service(1)pickle(1)bash(1)ubuntu 18.04(1)iris(1)공사현장 안전장비 인식 이미지(1)Ubuntu18.04(1)docker search(1)프로메테우스(1)ML(1)파이썬 클린 코드(1)쿠베플로우(1)DataFreame(1)kubeflow 1.4(1)port forwarding(1)model registry(1)kubeflow 1.2(1)ML pipeline(1)multi instance gpus(1)chrome-remote-desktop(1)query(1)NFD(1)nvidia-smi(1)conda(1)파이프라인(1)Developer kit(1)데이터 추출(1)프로덕션(1)OpenCV 4.1.1(1)Eager(1)enable_eager_execution(1)그라파나(1)rllib(1)none driver(1)build(1)TAO Toolkit 3.22.05(1)AIHub(1)commit(1)Mac Os(1)CUDA 10.2(1)putty(1)tune2fs(1)RAM(1)window(1)자기지도학습(1)개발환경(1)dynamic provisioning(1)tensorflow(1)prometheus(1)operation(1)반대(1)AI(1)custom resource(1)iris data(1)TensorRT(1)kfctl(1)@property(1)kubelet(1)workflow-controller(1)DeepLearning(1)포트포워딩(1)머신러닝(1)xrandr(1)쿠버 대시보드(1)artifact(1)ray(1)workflow-controller-configmap(1)Overriding(1)iptime(1)monitoring(1)모니터링(1)pull(1)컨테이너 인프라 환경(1)eks(1)python 3.6이상(1)VISION(1)Extendend Resource(1)Grafana(1)TensorRT 8.2.1(1)YOLO v4(1)portforward(1)kubeflow 1.4.1(1)NodePort(1)우분투 해상도(1)dsl(1)JetPack 4.6.1(1)remote(1)Date Version Control(1)논문(1)SDK(1)모니터링 환경(1)pandas(1)데이터 시각화(1)Kubeflow Pipeline(1)엣지 컴퓨팅(1)맥북(1)DeepStream SDK 6.0(1)쿠브플로우(1)trt(1)KITTI(1)speech(1)vscode(1)마우스(1)시각화(1)chrome(1)맥북프로(1)write(1)certification(1)search(1)운영(1)(1)tag(1)CUDA 11.4(1)data2vec(1)@Resource(1)katib(1)object(1)18.04(1)MIG(1)Self-supervised(1)번역(1)Kernel(1)pod(1)
post-thumbnail

Kubernetes 환경에서 Kuberay 배포하기

오늘은 기구성된 쿠버네티스 환경 위에 Kuberay를 이용해서 ray 클러스터를 올려보고자 합니다.기존의 쿠버네티스 환경에서도 ray를 이용한 파드는 잘 사용했습니다만, top이나 bpytop으로 정확히 어떤 프로세스가 어느 CPU를 점유하고, 메모리를 얼마나 사용하고

2023년 2월 20일
·
0개의 댓글
·
post-thumbnail

딥러닝 개발환경 구축 자동화(Docker, Conda)

안녕하세요, 이번 포스팅에선 다양한 논문을 재현하거나, 자사 서버에서 개발한 AI 프로그램을 타사에서 재현하거나, 프로젝트 별로 목적에 맞는 개발환경을 빠르고 편하게 구축할 수 있도록 자동화를 진행해보고자 합니다.OS: Ubuntu 18.04GPU Architectur

2023년 2월 16일
·
0개의 댓글
·

[Python 3] 부모 클래스를 상속받으면서 자식 클래스에 추가 변수 할당하기

프로젝트 코드를 작성하다 조금 헷갈리는 부분이 있어 확인하고 기록해둡니다.\*args를 사용할 때는 항상 부모 클래스의 \_\_init\_\_ 메서드에서 정의된 파라미터 개수와 같은 개수를 넘겨주어야 합니다.예를 들어 부모 클래스의 \_\_init\_\_ 메서드에서는

2023년 1월 26일
·
0개의 댓글
·
post-thumbnail

Docker push가 느린 이유

MLOps 플랫폼 서비스를 개발하던 중, 여느 때 처럼 수정사항을 반영하고 이미지를 빌드하고 푸쉬하는데,3.3GB 정도의 이미지를 푸쉬하는데 반나절 정도 소요되는 일이 발생했습니다.코드가 좀 많아졌을 뿐 용량이 큰 파일도 없었는데..?dockerfile 최적화를 너무

2022년 10월 20일
·
0개의 댓글
·
post-thumbnail

Nvidia Jetpack, DeepStream 기반 TensorRT 추론 테스트

오늘은 TAO 툴킷을 이용해 훈련시킨 객체 감지 모델을 TensorRT 모델로 내보내고, 이를 NVIDIA Jetson Nano에서 Deepstream SDK를 활용해 추론하는 과정을 포스팅합니다!

2022년 9월 13일
·
0개의 댓글
·
post-thumbnail

CUDA 11.6 TensorRT OSS 설치

Linux 플랫폼의 경우 아래 설명된 대로 TensorRT OSS를 빌드하기 위한 도커 컨테이너를 생성하는 것이 좋습니다. TensorRT-OSS 빌드 컨테이너를 생성합니다.TensorRT-OSS 빌드 컨테이너는 제공된 Dockerfile 및 빌드 스크립트를 사용하여

2022년 9월 8일
·
0개의 댓글
·
post-thumbnail

리눅스 유휴 용량에 관하여.

리눅스 서버를 이용하다, 용량이 부족한 경우가 있습니다.기본적으로 아래와 같이 용량을 확인합니다.아래 명령어는 현재 위치에 있는 폴더별 용량을 읽기쉽게(MB단위) 표현하되,크기별로 소팅해서 보여줍니다.sudo du -sh \* | sort -hrsudo du -h --

2022년 9월 7일
·
0개의 댓글
·
post-thumbnail

image file is truncated 해결

PIL(pillow)를 사용해서 이미지를 로드할 때, 이미지가 깨져있으면 해당 에러가 발생한다.py 스크립트나 쥬피터 노트북에서 PIL.Image.open()을 사용하고 있다면 아래처럼 해주시면 깨진 이미지가 있어도 정상적으로 진행합니다.다만 타인이 만든 컨테이너를 사

2022년 9월 2일
·
0개의 댓글
·
post-thumbnail

AI 허브 데이터 전처리 예제

오늘은 AI 허브에서 제공되는 공공데이터를, Nvidia TAO에서 Yolo v4의 훈련데이터로 활용하기 위한 전처리 과정을 기록해볼까 합니다.몇 달전에 관련 프로젝트로 데이터를 활용한 적이 있어서 코드가 뜨문뜨문 저장되어 있었는데, 이 기회에 한번 정리해보겠습니다.대

2022년 8월 30일
·
0개의 댓글
·
post-thumbnail

CUDA 버전 업데이트

CUDA.. 지겹다 너란 놈.이제 서버에 CUDA 세팅하는 건 마스터했다고 생각했는데TensorRT를 깔던 도중 CUDA 버전이 이상하는 것을 깨달았다.평소에 nvidia-smi를 활용해 CUDA 버전을 확인하고 있었는데, 이게 실제 서버의 쿠다버전이 아닌, 현재 설치

2022년 8월 29일
·
0개의 댓글
·
post-thumbnail

우분투 크롬 원격 데스크톱 설정, 블랙스크린 해결 방법

안녕하세요!오늘은 서버를 이동시킬 일이 있어서 원격 데스크톱을 설정하려고 합니다.우분투 서버에서 원격 데스크톱을 열어놓고 어디서든 접속하려했는데, mac의 경우 아주 수월하게 진행되나 ubuntu의 경우 몇 가지 수정해줄 부분이 있어서 해결방법을 공유합니다.https&

2022년 7월 28일
·
0개의 댓글
·
post-thumbnail

Kubeflow authservice-0 permission denied 에러 해결

서버를 재시작하면 minikube 클러스터도 멈추어서 재시작을 해주어야 합니다.재시작 후 모든 pod이 다시 정상적으로 올라오나 지켜보고 있었는데 istio-system 네임스페이스에서 authservice-0이 오류가 났습니다.에러 메세지 : 결국 정리해보자면open

2022년 6월 16일
·
0개의 댓글
·

KFP SDK 활용방법 정리

안녕하세요!이번엔 Kubeflow 파이프라인을 개발할 때 자주 사용했던 kfp 모듈에 대해 알아보고자 합니다.SDK라고도 하고, 파이썬 입장에서 보면 패키지이기도 합니다.파이프라인을 컴파일할 때 주로 사용하지만, sdk만으로 파이프라인을 컴파일해서 업로드하고, 리스트를

2022년 6월 15일
·
1개의 댓글
·
post-thumbnail

DVC를 활용해 모델, 데이터의 버전을 관리해보자!(작성중)

안녕하세요!오늘은 DVC(Data Version Control)을 이용해서 ML 파이프라인에 사용되는 데이터와 모델의 레지스트리를 관리하는 방법에 대해 알아보려고 합니다.서버 내에 코드(프로젝트)와 NFS(Network File System) 내에 데이터를 따로 구성해

2022년 6월 7일
·
0개의 댓글
·
post-thumbnail

Window에서 Minikube / Kubeflow 구축하기

안녕하세요, 오늘은 Window os에서 쿠버네티스를 구축하고, Kubeflow가 정상적으로 동작하는지 확인해보려고 합니다.항상 Mac 혹은 Linux Ubuntu 계열의 OS만 사용하다보니, Window로 개발환경을 구축하는게 얼마만인지 모르겠네요.Minikube 구

2022년 5월 23일
·
0개의 댓글
·
post-thumbnail

(임시) K8s Pod과 Docker containers 관계

docker ps | egrep 'CONTAINER|dl-model-20220502-2xz6h5xm-worker-0'ps auxf

2022년 5월 2일
·
0개의 댓글
·

VSCode Tensorflow reload - enable_eager_execution() 관련 이슈 해결

tf.enable_eager_execution() 을 설정했다가, 사용하지 않으려는데 자꾸 eager 관련 에러가 발생해요! 어떻게 커널이나 라이브러리 호출을 초기화시켜야 하나요?

2022년 4월 18일
·
0개의 댓글
·

[에러해결] Cannot convert a symbolic Tensor (strided_slice_1:0) to a numpy array. This error may indicate that you're trying to pass a Tensor to a NumPy call, which is not supported

Cannot convert a symbolic Tensor (strided_slice_1:0) to a numpy array. This error may indicate that you're trying to pass a Tensor to a NumPy call, wh

2022년 4월 15일
·
0개의 댓글
·
post-thumbnail

워크스테이션 CUDA 환경 구축

차후에 진행될 워크스테이션 내 CUDA 환경 구축기를 기록합니다.

2022년 4월 13일
·
0개의 댓글
·
post-thumbnail

minikube kubeflow 내 minio service 포트포워딩

minio-service 상태를 확인해봅시다.minio는 보통 9000번 포트를 사용합니다.minikube service listminio-service의 서비스 타입을 LoadBalancer로 노출해줍니다.이전에 Minikube의 MetalLB addons가 활성화

2022년 4월 1일
·
0개의 댓글
·