2024.01.12 DAY77
AWS에서 center point 환경설정을 드디어 성공했다!! 환경 설정이 이렇게 어렵고 오래 걸릴줄 몰랐다... 지나고보면 간단한 거였지만 그 당시에는 에러를 찾아보고 원인이 무엇인지 찾는 과정에 시간이 오래 걸린 것 같다. 환경 설정을 마무리 했으니 train 학습을 돌릴때도 용량 에러가 발생해서 해결하는에 오래걸렸다. 알고보니 container를 생성할 때 옵션을 주었어야했다.
인스턴스를 팀원들과 공유해서 같이 사용하는데 인스턴스의 용량이 부족해서 설치가 안된다는 에러가 계속 발생했다... 사실 이런 문제들은 local에서 각자 진행할 때는 발생하지 않는 문제인데 AWS로 동시에 사용하니 발생하는 것 같다. 이런 문제들도 해결해가는 과정에서 많은 경험이 쌓이는 것 같긴하다. 결국 용량 문제는 제대로 해결하지 못했다.. 내일 다시 찾아서 해결해봐야할 것 같다.
일단 train을 실행해놓고 자러가야겠다. 밤새 학습이 잘 되기를!!
🧬딥러닝 프로젝트 과정 및 어려웠던 점
환경 변수 설정
- center point와 nuscenes-devkit과 관련한 환경변수를 설정해주지 않았었다
- 그랬더니 에러가 발생하여 환경변수를 설정해주었다
- bashrc에 내용들을 저장하여 다시 접속했을 때도 적용이 되도록 설정했다
spconv 에러
- center point의 github에서 알려준 spconv 설치 방법대로 spconv 설치를 수행했었다
- 이때 cmake 에러, torch::jit::RegisterOperators 에러, cout 에러 등 많은 에러가 발생했다
- 이 에러들은 코드를 수정하고 git clone을 받아오는 등의 해결 방법으로 해결하였다
- 하지만 !!more than one operator "==",">" matches these operands 에러가 발생했고... 여러 방법들을 다 적용해보았지만 해결이 안되었다
- 결국 spconv에 관해 찾아보다가 단순히
# pip install spconv-cu114
명령어로 spconv를 설치할 수 있다는 것을 알게 되었고 이 방법으로 간단히 spconv를 설치할 수 있었다
- 앞으로 어떤 라이브러리를 설치할 때에는 단순히 다른 사람이 알려주는 설치 방법을 따르는 것보다 그 라이브러리를 먼저 찾아보는 습관을 들여야겠다
용량 부족 에러
shared memory (shm) 에러
- 모델 학습을 시작할 때
shared memory (shm)
에러가 발생하였다
- 이는 host와 IPC 네임스페이스를 공유하도록 설정하면 된다
- 하지만 이 방법은 container를 생성할 때 옵션으로 지정해줘야 하기 때문에 container를 다시 생성하고 환경 설정도 다시 해주어야 했다
no space left on device
no space left on device
라는 에러가 발생했다
- 인스턴스의 용량이 부족하다는 에러였다
- 팀원들이 같이 사용하고 있고 데이터셋도 용량이 커서 발생하는 문제 같았다
- 용량을 확인해 보았고 overlay가 가장 많은 용량을 차지하고 있었다
- overlay를 찾아보니 이걸 삭제하면 쓸데없는 container를 지울 수 있다고 해서 삭제를 진행하였다
- 그런데! up 상태인 container는 사라지지 않았지만 종료된 container는 다 사라졌다..!
- 결국 다시 container를 만드니 용량이 부족하다는 에러가 다시 발생하였다
- opt/conda 폴더를 제거하였다
- 이 폴더에는 conda 등의 여러 파일들이 있는데 현재 인스턴스에서는 필요하지 않기 때문에 삭제해도 아무런 문제가 없었다
- 하지만... 그 이후에도 용량 에러가 계속 발생했다
- 환경상 인스턴스의 용량을 늘릴 수 없어서 문제를 해결할 수 없었다...
- 결국 팀원과 같은 container를 사용하여 하나의 container만 남기고 다 삭제한 후 프로젝트를 진행해야했다