Dialogue summarization

suhan jo·2024년 9월 24일

&&Upstage

0. Task

대화문(영어를 한국어로 바꾼 데이터셋)을 요약하기
평가지표 : Rouge 1, 2

1. Problems

대화문은 구어체 요약문은 문어체이다.
말한 주체 Person1, Person2 등 유지해야한다
문맥상 같은게 아니라 단어가 같아야 점수가 올라간다.

2. Solutio

오탈자 제거
어체 바꿔주는 bart모델을 통해 다양성 증가
- 구어체, 문어체, 번역체로 증강하여 시도
Solar LLM을 활용한 한국어를 영어로 번역
- 기존 영어 데이터셋이므로 한국어로 번역하여 시도
- 최대한 데이터 형태를 유지하기 위해 프롬프트 엔지니어링 시도
  - 사람의 이름은 유지, 말투는 system에 원래 데이터셋의 한국어를 넣어 유지하도록 함
Person1, Person2 등 스페셜 토큰을 추가하여 유지
대화 문을 바꿀 때 토큰을 추가하여 화자 바뀜을 적용
R3F를 적용하여 문장 임베딩시 노이즈를 주어 GT와 비교하여 강건하게 함.
MLM과 Permutation을 줄때 성능 개선을 됐다는 논문 토대로 bart를 학습 시도
Llma3를 QLoRA를 적용하여 튜닝.

3. Result

대회 주최 목적은 대화 데이터셋을 LLM을 활용하여 적절하게 증강하여 성능 개선인 듯 하였지만 상위4위팀 모두 LLM을 LoRA를 통해 개선. 또한 LLM이 적절한 대답을 할 수 있도록 Temperature과 prompt Engineering을 잘하여 결과 도출하는게 제일 나은 듯 하다. 또한 데이터 분석을 잘해 데이터 노이즈 제거가 중요한듯

suhan jo

이전 포스트

Dialogue summarization

0. Task

1. Problems

2. Solutio

3. Result

generation 정리

0개의 댓글