kangmin.log
로그인
kangmin.log
로그인
[부스트캠프 AI-Tech] 12주차 Day 2~3
LKM
·
2022년 4월 23일
팔로우
0
KLUE-RE
0
부스트캠프 AI-Tech P stage
목록 보기
14/45
🗣️피어세션
질문형 문장
obj, sub이 아닌 ‘#과 @의 관계는?’과 같은 문장 실험 필요
스페셜 토큰 실험 (질문형 문장, 원본 문장)
원본 문장만 > 둘다 안넣음 > 둘다 넣음 >>> 질문형 문장으로 성능이 나옴
원본 문장에만 넣는 것이 가장 좋은 성능
질문형 문장에만 넣을 경우 성능이 상당히 많이 떨어졌다 → 모델이 질문형 문장에 집중하여 학습의 방향성이 틀어졌다고 생각
entity type을 한글로 변경해서 실험 필요
📊실험 회고
시도했던 것
focal loss 다시 실험
gamma값 튜닝 (0, 0.5, 1, 2, 5)
xlm 모델 실험
하이퍼 파라미터 튜닝
TAPT 실험
K-fold 실험
회고
하이퍼 파라미터 튜닝의 경험을 토대로 focal loss도 다시 살펴보았다. 논문과 focal loss 코드를 살피던 중 gamma 값도 튜닝이 필요한 것을 깨달았다. gamma 값을 튜닝하였더니 성능이 많이 상승하였다... 한번더 반성하는 시간이 되었다.
현재 roberta-large 모델만 사용하고 있어 ensemble을 위해 다른 모델도 필요하다고 생각했다. multi-language 모델중 xlm이 무난한 성능을 보여줘서 선택하였다.
xlm의 경우 TAPT가 효과가 있을것이라 생각했지만, 오히려 큰 성능 하락이 발생하였다. → 가장 큰 이유는 multi-language 모델이기 때문에 한국어 모델보다 훨씬 많은 데이터가 필요하다고 생각
roberta-large를 기준으로 k-fold를 진행하였다. 기존 코드를 최대한 활용하기 위해서 k-fold 각각의 결과를 저장하고 ensemble하는 방식을 사용했다. 성능은 확실히 좋아졌다.
기본 하이퍼 파라미터 튜닝이후부터는 실험이 막힘없이 진행되었다. 뿌듯하기도 하며, 한편으로는 좀더 빨리 깨달았으면 하는 아쉬움도 있었다. 남은 기간 후회없이 실험해볼 것이다.
LKM
함께 자라기
팔로우
이전 포스트
[부스트캠프 AI-Tech] 12주차 Day 1
다음 포스트
[부스트캠프 AI-Tech] 12주차 Day 4
0개의 댓글
댓글 작성