코드 짜면서 실행하다 멈추고 디버깅할 일이 잦아졌는데, 프로세스를 멈춘다고 GPU에서 내려가는 건 아니라서 계속 실행하게 되면 GPU 메모리가 없다면서 실행 자체가 되지 않았다.
평소 nvidia-smi로 gpu를 확인하기 때문에 여기에 나와있는 PID를 기준으로 한 번에 종료하는 명령어를 본 글에 기록한다.
두 번째 박스에 4번째를 보면 PID가 나와있는데, 여기서 conda 가상환경 llm 의 이름을 사용하는 python을 내려주려고 한다.
nvidia-smi | grep 'llm/bin/python' | awk '{ print $5 }' | xargs -n1 kill -9
nvidia-smi를 열고 그중 llm/bin/python의 이름을 가진 행만 추출한다.
이후 awk로 5번째 인덱스에 있는 PID만을 추출하는 명령어가 nvidia-smi | grep 'llm/bin/python' | awk '{ print $5 }'
이고, 이 출력값을 xargs -n1 kill -9
로 넘겨주어서 죽여준다 !