Monodepth 학습일기

유원균·2022년 11월 15일
0

WIL(11.13~11.19)

목록 보기
2/2

환경 설정에 익숙하지 못해서 2주동안 초기 환경 설정과 파이썬의 버전 문제와 관련된 문제만 붙잡고 있었던 것 같다.

처음에는 깃허브의 레퍼런스 코드와 환경을 맞춰서

conda install pytorch=0.4.1 torchvision=0.2.1 -c pytorch
pip install tensorboardX==1.4
conda install opencv=3.3.1 # just needed for evaluation

와 같이 토치 0.4.1, 토치비전 0.2.1로 수행을 하려고 했는데 작성한 코드를 돌려보니 계속 아래와 같은 에러가 떴다.
CUDA_STATUS_SUCCESS... 성공인데 왜 에러지...?
열심히 구글링 한 결과 쿠다 버전문제라고 해서, 쿠다를 논문에서 사용한 9.1버전으로 깔려고 했다.

근데, 쿠다 9.1은 윈도우 11에서 지원이 안된다고 한다... ㅎㅎ

컴퓨터를 구매할 때 윈도우 11로 구매했고, 우분투를 깔기에는 SSD 용량 이슈가 있기에 코랩에서 사용해보려 했으나,
코랩에서 파이썬 버전을 바꿔서 까는 순간 cd, pwd같은 기본 명령어부터 시작해서 기본 패키지부터 동작을 안하는 문제가 발생해서 역시 포기하고 말았다.

그냥 사용하고 있는 가상환경에서 코드를 어찌저찌 바꿔서 해보려고 했는데, 메모리와 페이징 파일 관련 에러가 계속 떴다. 결과적으로 메모리는 batch size의 문제, 페이징 파일은 dataloader의 num_workers 변수 문제였다. 레퍼런스 코드는 titan Xp로 학습을 했으니, RTX3070의 8GB 메모리로는 감당이 안되는게 당연했다.

이외에도 파이썬과 토치 버전차이로 생기는 각종 문법 이슈들을 열심히 고치고 나니 오늘 드디어 동작하는걸 볼 수 있었다.

그런데 로컬로 실행하니음... 10일정도 걸린다고 한다.

그래픽카드 사용량을 보니 40%를 못넘기던데 아마 메모리 크기로 인해 batch size와 num_worker을 크게 지정하지 못해서인거 같다.

10일동안 학습할거면 코랩 프로 플러스 결제하는것보다 전기세가 더 나올거같아 조만간 모델을 다 완성하면 코랩 프로 플러스를 결제할 듯 하다.

현재 사용하고 있는 코랩 프로로 잠깐 돌려봤을 때 30시간정도가 걸린다고 떴다. 로컬보다는 확실히 희망적이다.
그런데 문제는 코랩 프로 플러스의 경우도 런타임이 최대 24시간이어서 early stopping이나 중간에 모델 파라미터를 저장해서 이어 돌리는 트릭이 필요할 것 같다.

일단 depth 부분은 transformer를 dense prediction에 적용하는 방식으로 코드를 간단하게 바꿔볼건데 training set이 40,000장밖에 안돼서 transformer가 잘 작동할지 모르겠다.

Pose부분은 opencv로 저번에 Correspondence matching - Essential matrix - Transformation matrix estimation 방식을 단일 이미지에 대해 적용해봤는데, opencv가 기본적으로 CPU에서 돌다보니 GPU로 빌드하는 방법에 대해 찾아봐야 할 것 같다.

0개의 댓글

관련 채용 정보