0. Task
- 대화문(영어를 한국어로 바꾼 데이터셋)을 요약하기
- 평가지표 : Rouge 1, 2
1. Problems
- 대화문은 구어체 요약문은 문어체이다.
- 말한 주체 Person1, Person2 등 유지해야한다
- 문맥상 같은게 아니라 단어가 같아야 점수가 올라간다.
2. Solutio
- 오탈자 제거
- 어체 바꿔주는 bart모델을 통해 다양성 증가
- Solar LLM을 활용한 한국어를 영어로 번역
- 기존 영어 데이터셋이므로 한국어로 번역하여 시도
- 최대한 데이터 형태를 유지하기 위해 프롬프트 엔지니어링 시도
- 사람의 이름은 유지, 말투는 system에 원래 데이터셋의 한국어를 넣어 유지하도록 함
- Person1, Person2 등 스페셜 토큰을 추가하여 유지
- 대화 문을 바꿀 때 토큰을 추가하여 화자 바뀜을 적용
- R3F를 적용하여 문장 임베딩시 노이즈를 주어 GT와 비교하여 강건하게 함.
- MLM과 Permutation을 줄때 성능 개선을 됐다는 논문 토대로 bart를 학습 시도
- Llma3를 QLoRA를 적용하여 튜닝.
3. Result
대회 주최 목적은 대화 데이터셋을 LLM을 활용하여 적절하게 증강하여 성능 개선인 듯 하였지만 상위4위팀 모두 LLM을 LoRA를 통해 개선. 또한 LLM이 적절한 대답을 할 수 있도록 Temperature과 prompt Engineering을 잘하여 결과 도출하는게 제일 나은 듯 하다. 또한 데이터 분석을 잘해 데이터 노이즈 제거가 중요한듯