[데브코스 자율주행 TIL] DAY 77 (01/12) 🧬

happy_quokka·2024년 1월 30일
0
post-thumbnail

2024.01.12 DAY77

AWS에서 center point 환경설정을 드디어 성공했다!! 환경 설정이 이렇게 어렵고 오래 걸릴줄 몰랐다... 지나고보면 간단한 거였지만 그 당시에는 에러를 찾아보고 원인이 무엇인지 찾는 과정에 시간이 오래 걸린 것 같다. 환경 설정을 마무리 했으니 train 학습을 돌릴때도 용량 에러가 발생해서 해결하는에 오래걸렸다. 알고보니 container를 생성할 때 옵션을 주었어야했다.

인스턴스를 팀원들과 공유해서 같이 사용하는데 인스턴스의 용량이 부족해서 설치가 안된다는 에러가 계속 발생했다... 사실 이런 문제들은 local에서 각자 진행할 때는 발생하지 않는 문제인데 AWS로 동시에 사용하니 발생하는 것 같다. 이런 문제들도 해결해가는 과정에서 많은 경험이 쌓이는 것 같긴하다. 결국 용량 문제는 제대로 해결하지 못했다.. 내일 다시 찾아서 해결해봐야할 것 같다.

일단 train을 실행해놓고 자러가야겠다. 밤새 학습이 잘 되기를!!


🧬딥러닝 프로젝트 과정 및 어려웠던 점

환경 변수 설정

  • center point와 nuscenes-devkit과 관련한 환경변수를 설정해주지 않았었다
  • 그랬더니 에러가 발생하여 환경변수를 설정해주었다
  • bashrc에 내용들을 저장하여 다시 접속했을 때도 적용이 되도록 설정했다

spconv 에러

  • center point의 github에서 알려준 spconv 설치 방법대로 spconv 설치를 수행했었다
  • 이때 cmake 에러, torch::jit::RegisterOperators 에러, cout 에러 등 많은 에러가 발생했다
  • 이 에러들은 코드를 수정하고 git clone을 받아오는 등의 해결 방법으로 해결하였다
  • 하지만 !!more than one operator "==",">" matches these operands 에러가 발생했고... 여러 방법들을 다 적용해보았지만 해결이 안되었다
  • 결국 spconv에 관해 찾아보다가 단순히 # pip install spconv-cu114 명령어로 spconv를 설치할 수 있다는 것을 알게 되었고 이 방법으로 간단히 spconv를 설치할 수 있었다
  • 앞으로 어떤 라이브러리를 설치할 때에는 단순히 다른 사람이 알려주는 설치 방법을 따르는 것보다 그 라이브러리를 먼저 찾아보는 습관을 들여야겠다

용량 부족 에러

shared memory (shm) 에러

  • 모델 학습을 시작할 때 shared memory (shm) 에러가 발생하였다
  • 이는 host와 IPC 네임스페이스를 공유하도록 설정하면 된다
  • 하지만 이 방법은 container를 생성할 때 옵션으로 지정해줘야 하기 때문에 container를 다시 생성하고 환경 설정도 다시 해주어야 했다

no space left on device

  • no space left on device라는 에러가 발생했다
  • 인스턴스의 용량이 부족하다는 에러였다
  • 팀원들이 같이 사용하고 있고 데이터셋도 용량이 커서 발생하는 문제 같았다
  • 용량을 확인해 보았고 overlay가 가장 많은 용량을 차지하고 있었다
  • overlay를 찾아보니 이걸 삭제하면 쓸데없는 container를 지울 수 있다고 해서 삭제를 진행하였다
  • 그런데! up 상태인 container는 사라지지 않았지만 종료된 container는 다 사라졌다..!
  • 결국 다시 container를 만드니 용량이 부족하다는 에러가 다시 발생하였다
  • opt/conda 폴더를 제거하였다
  • 이 폴더에는 conda 등의 여러 파일들이 있는데 현재 인스턴스에서는 필요하지 않기 때문에 삭제해도 아무런 문제가 없었다
  • 하지만... 그 이후에도 용량 에러가 계속 발생했다
  • 환경상 인스턴스의 용량을 늘릴 수 없어서 문제를 해결할 수 없었다...
  • 결국 팀원과 같은 container를 사용하여 하나의 container만 남기고 다 삭제한 후 프로젝트를 진행해야했다

0개의 댓글