지난주 목표에 따라 계속해서 개인공부 + 학부연구생 할 일을 병행하고 있다. 이번주에 어떤 일을 했는지 돌아보자!
이번주에는 mmdetection 의 faster rcnn api를 가지고 Inference, training 하는 걸 공부해봤다. 제일 와닿았던 건.. api 등의 사용법을 익히거나 학습하는데 코드를 자유자재로 사용할 수 있으려면 나의 데이터셋으로 그에 맞게 코드를 조작해서 넣어보는 것! 물론 이번에는 깊은 내부적인 코드를 건드릴 건 없었고, 데이터셋을 원하는 형태로 준비시키는 것과, config 등 전체적인 파이프라인을 조작하는 방법을 배웠다. 아래 포스팅을 쓰면서 가장 공부를 많이 했다.
- CustomDataset 으로 훈련, 예측하기
학부연구생으로는 아래와 같은 일들을 했다.
- 데이터 깔끔하게 만들기
- 새로 넣을 우리 데이터에 맞게 코드 동작시키기
- 기타 오류 수정, 코드 분석
개인적으로 정말 의미있었던 경험이었던 것이, 우리의 task 는 데이터가 3열로 구성되어 있었고, (기존 논문의 경우 1열) 단순히 열만 다른 것이 아니라 loss함수부터 forward 함수까지 수정했어야 했는데, 그러다보니 파일 여러개를 모두 수정하는 것이 필요했다.
SimCTG 논문 깃헙의 /pretraining 폴더이다. train.sh 에서 전체적인 config 를 정의하고 train.py 를 돌리는데, 따라서 train.py simctg.py 파일과 dataclass.py 파일에 수정이 필요했다. 논문을 읽고 실험하고자 하는 것과 연결짓고, 또다시 논문의 코드를 우리 데이터에 맞게 수정하는 작업 자체가 신선하기도 했고 잘 해내기도 해서 뿌듯한 주였다. 아래는 결과 사진!
약간 걸리는 게 데이터를 받기 전에 미리 수정해둔 코드들이 있었는데, 데이터를 넣고 dataclass.py 를 좀 더 손보니 미리 짜둔 simctg.py 가 잘 돌아갔다는 것..? 그래서 코드를 한 번 더 검증하기로 했다.
나머지 할 일들은 따로 노션에 미팅노트에 정리하고 있어서, 여기다 구체적으로 적진 않으려고 한다.
그런데 어제 코드를 다 완성하고 돌리고 나서 생각이 들었던 게, 나는 SimCTG 깃헙에 pretraining 폴더에 있는 훈련 코드들을 수정하고 훈련 돌렸는데, 생각해보니 SimCTG를 pretrain 한다는 것과 train 한다는 게 어떤 차이가 있는건지 갑자기 헷갈렸다..그래서 교수님께 급하게 카톡드렸고, 이어서 훈련한다는 공통점을 가진 것 중에 further pretraining 이란 것도 있고, 흔히 알고있는 fine-tuning 이라는 것도 있다는 걸 알았다.
결과적으로 우리는 further pretrianing 이 좀 더 맞다고 판단해 다행히? 일주일동안 끙끙댄 코드 수정이 유의미할 수 있었다..
➡️ 추가적으로 요즘엔 하루종일 컴퓨터를 들여다보면서도 구체적으로 내가 좋아하는 일이 뭔지, 내가 어떤 task 를 작업할 때 가장 집중하고 재밌어하는지 생각해봤을 때, 지금까지 해본 것으로는 약간의 순위가 정해진 것 같다. 제일 재밌었던 건 논문 여러개 읽고 전혀 새로운, 또는 여러개를 조합한 새로운 아이디어를 내는 것 (특히 loss 식과 관련해서) / 다음으로는 코드 짜는 것 (귀찮은 게 좀 있어서 2등..) / 데이터 구축하고 라벨링 작업할 땐 그렇게 흥미를 느끼진 못했던 것 같다. 그래서.. 나중에 시간이 된다면 지금 재밌어하는 것들을 잘 할 수 있도록 좀 더 딥하게 공부해보려한다.
이번주 할 일은
이정도가 있을 거 같다.
화이팅~~