[boostcamp] Day 37. 늦은 밤 급하게 메모하기

Jaeyeon Kim·2023년 5월 3일
1

Naver Boostcamp AI Tech

목록 보기
29/29

낮 동안 이것저것하느라 바빠서 블로그 적을 시간이 없었는데,
오늘 한 것들을 간단히 메모해보고자 한다.

PL 리팩토링 시도

대회 베이스라인 코드가 그냥 파이토치 코드로 작성이 되어있어서,
파이토치 라이트닝 코드로 리팩토링을 시도하였다.
다른 부분들은 다 구현했는데 metric 부분에서 막혀버렸다.
gradient가 제대로 전달도 되지 않고, f1 score를 구하는 데에도
꽤나 차이가 발생하는 것 같다.

모델 수렴 이슈

작은 데이터셋으로 큰 모델을 학습 시킬 때,
모델이 한 값으로 수렴해버리는 이슈가 종종 발생한다.
저번에는 한 에폭만 학습 시켜보고, 수렴하지 않으면
수렴하지 않은 모델을 저장시켜두고 그걸 불러서 진행했다.

이번에는 warmup 방식을 사용해봤는데,
배치 사이즈를 키우고 warmup step을 사용하니
모델이 수렴하지 않고 학습이 진행되는 것으로 보인다.
발산을 일으켜서 수렴을 한다,,? 신기한 개념인 것 같은데
큰 학습률을 통해 local minimun을 벗어난다고 생각했다.
그래디언트를 생각해보면 그럴싸한 이론인 것 같다.

profile
낭만과 열정으로 뭉친 개발자 🔥

0개의 댓글