[부스트캠프 AI-Tech] 12주차 Day 2~3

LKM·2022년 4월 23일
0

🗣️피어세션


  • 질문형 문장

    • obj, sub이 아닌 ‘#과 @의 관계는?’과 같은 문장 실험 필요
  • 스페셜 토큰 실험 (질문형 문장, 원본 문장)

    • 원본 문장만 > 둘다 안넣음 > 둘다 넣음 >>> 질문형 문장으로 성능이 나옴
    • 원본 문장에만 넣는 것이 가장 좋은 성능
    • 질문형 문장에만 넣을 경우 성능이 상당히 많이 떨어졌다 → 모델이 질문형 문장에 집중하여 학습의 방향성이 틀어졌다고 생각
    • entity type을 한글로 변경해서 실험 필요



📊실험 회고


시도했던 것

  • focal loss 다시 실험

    • gamma값 튜닝 (0, 0.5, 1, 2, 5)
  • xlm 모델 실험

    • 하이퍼 파라미터 튜닝
    • TAPT 실험
  • K-fold 실험



회고

  • 하이퍼 파라미터 튜닝의 경험을 토대로 focal loss도 다시 살펴보았다. 논문과 focal loss 코드를 살피던 중 gamma 값도 튜닝이 필요한 것을 깨달았다. gamma 값을 튜닝하였더니 성능이 많이 상승하였다... 한번더 반성하는 시간이 되었다.
  • 현재 roberta-large 모델만 사용하고 있어 ensemble을 위해 다른 모델도 필요하다고 생각했다. multi-language 모델중 xlm이 무난한 성능을 보여줘서 선택하였다.
  • xlm의 경우 TAPT가 효과가 있을것이라 생각했지만, 오히려 큰 성능 하락이 발생하였다. → 가장 큰 이유는 multi-language 모델이기 때문에 한국어 모델보다 훨씬 많은 데이터가 필요하다고 생각
  • roberta-large를 기준으로 k-fold를 진행하였다. 기존 코드를 최대한 활용하기 위해서 k-fold 각각의 결과를 저장하고 ensemble하는 방식을 사용했다. 성능은 확실히 좋아졌다.
  • 기본 하이퍼 파라미터 튜닝이후부터는 실험이 막힘없이 진행되었다. 뿌듯하기도 하며, 한편으로는 좀더 빨리 깨달았으면 하는 아쉬움도 있었다. 남은 기간 후회없이 실험해볼 것이다.
profile
함께 자라기

0개의 댓글