내가 대학원에 진학하게 된다면, 가고싶었던 교수님의 마스터클래스를 들었다. 교수님께서 여기까지 어떻게 오셨는지 설명해주셨는데 흥미로웠지만, 대학원은 안갈거다.
오늘 공부한 내용은,
transfomer의 RoBERTa 모델을 자세히 살펴보며 forward 함수를 변형하면서 다양한 실험을 진행했다. dropout을 적용하고 손실함수를 변경해봤지만 성능 향상에는 크게 도움이 되지 않았다.
그 다음으로 한건, 배치 사이즈를 늘렸을 때 성능이 항상 오르는지 실험해보았다. GPU의 성능 문제로 gradient accumulation step을 사용하고 있는데, 이 값이 커질수록 노이즈가 발생해서 성능에는 좋지 않은 영향을 미친다는 걸 확인했다.
예서가 짜준 코드로 elastic search를 적용해봤는데 다른 모델은 이 retrieval를 적용하면 성능이 올랐는데, roberta-large 모델은 성능이 오르지 않았다.
마지막으로, 외부데이터를 사용해서 모델을 학습하고 완료된 모델을 대회 데이터로 학습을 했다. 아직까지 어떠한 기준으로 외부데이터를 선정해야하는지 잘 모르겠어서 더 고민해봐야겠다.
이번주도 정말 열심히 잘 보냈다.
하기 싫다고 하면서도 울면서도 공부하는 나 자신 멋졌다.