💡 Insight
[strength]
- 지난번 팀회의에서 제안주셨던 것처럼, 데이터의 범위를 줄이는 방식이 의미있는 성능 향상을 가져옴
- longformer를 사용하는 것이 context를 길게 넣어줄 수 있다는 점에서 좋을 것 같음
[room for improvement]
- retrieval 알고리즘을 TF-IDF로 한 이유가 궁금함. sentence-transformer와 같은 Dense embedding을 사용하는 것이 필요함 → 다음 노트북!
- query를 question만 넣거나, 좀 더 다양하게 진행해볼 수 있을 거 같음. → 다음 노트북에서 question뿐만 아니라 option도 넣는 것이 성능이 좋았다는 것을 리포팅!
- longformer를 관련 데이터셋을 가지고 더 학습시켜서 성능을 높일 수 있을 것이라고 생각됨 → 그러나 read model 학습 실험을 통해서 아주 긴 모델을 fine-tuning을 하는 것이 현재 가진 자원으로 쉽지 않을 수 있다고 생각함
💡 Insight
[strength]
- 가장 이상적이라고 생각했던, Retrieval-augmented LLM 방식. 메모리 관리를 전반적으로 굉장히 잘했다!
- 범위를 줄이고 sentence transformer를 사용했다는 점에서, (쿼리도 question만 넣는 것이 좋다는 것을 공유했다는 점에서) retrieval 알고리즘은 이 노트북에 정착하고! backbone 정도만 바꿔보는 것으로 실험해보면 되겠다고 생각이 들었다.
- 이 retrieval 알고리즘에, read model을 바꾸어서 넣어보는 실험을 하는 것이 최종적으로 좋을 것이라고 보았다.
[room for improvement]
- sentence transformer 바꿔보기
- read model 학습해서 넣어보기
→ 지난 주에 논의되었던 바와 같이, 위키의 범위를 줄인 데이터셋이 나왔으므로, 이 노트북들을 기준으로 다음 단계를 진행 !
베이스라인 노트북에서 쓰고 있는 BAAI/bge-small-en-v1.5, 그리고 폴더 안에 있는 것들

기존 transformer 저장 + faiss index 생성하는 코드 (팀 깃헙에 공유)

→ 이렇게 해놓고 밤새 돌아가게 두었읍니다,,,,, ㅋㅋㅋㅋㅋㅋㅋ
sentence-transformers/all-MiniLM-L6-v2
BAAI/bge-base-en-v1.5
BAAI/bge-large-en-v1.5
sentence transformer backbone 비교 (BAAI/bge-small-en-v1.5와 sentence-transformers/all-MiniLM-L6-v2) → 팀 깃헙에 공유
!cp -rf /kaggle/input/sentence-transformers-222/sentence_transformers /kaggle/working/sentence-transformers
!pip install -U /kaggle/working/sentence-transformers
MMLU dataset
Papers with Code - MMLU Dataset
Back bone model list
학습 코드 → 팀 깃헙에 공유
32기가 gpu 기준, 512 maxlength인 경우에는 bacth4까지 가능, 1024 maxlength 인 경우에는 batch2까지 가능 → deberta랑 longformer가 2개씩 나눠서 쓰고 있다,,,,
결론 : context를 길게 Finetuning 시키는 것이 너무나도 빡세다!!! ㅜㅜㅜㅜ