[project]도배 하자 질의 응답 처리 : 한솔 데코 시즌2 AI 경진대회-6, 실험 실패 기록

서민성·2024년 3월 14일
0

데이터의 증강 이후 실패했던 경험들을 정리하고자 본 글을 작성했다. 해당 실험들이 진행되고 있을 시기가 최종 제출일까지 5일 정도 남았을 시기인점 감안

llama 2 7b

이전 학습 토대로 TinyPixel/Llama-2-7B finetuning을 1/3 epoch을 진행하였고, 사실 fine tuning을 제대로 진행해본 경험이 없어 들어가는 데이터의 형식만 일부 바꿔 총 4번을 실험했다.

형식 1
"question: 면진장치가 뭐야? answer: 면진장치란 지반에서 오는 진동 에너지를 흡수하여 건물에 주는 진동을 줄여주는 진동 격리장치입니다."

형식 2
"Below is an instruction that describes a task. Write a response that appropriately completes the request. ### Instruction: 면진장치가 뭐야? ### Response: 면진장치란 지반에서 오는 진동 에너지를 흡수하여 건물에 주는 진동을 줄여주는 진동 격리장치입니다."

결과는 다음과 같다.

epoch3epoch1
형식 10.7050.690
형식 20.6960.687
  • 최고 점수였던 0.718보다는 떨어지지만 근소하게 떨어지는 것으로 보아 증강된 데이터의 문제는 아니라고 믿고 있음(지금도..!)
  • 이전 실험과는 달리 epoch가 늘어날 수록 점수가 상승되는 것으로 확인. (지금보니 조금 더 학습해볼걸 하는 후회가 드네요..)
  • llama2의 다른 모델도 사용하여 동일한 실험을 진행했지만 기존 sota를 넘기지 못함.

polyglot 12.8b 4bit

준범님의 예시코드 따라 polyglot 12.8b 4bit quentization 진행
해당 코드 실험할 때 외부일정이 있어 rag를 진행하지 않고 다른 실험으로 전환함.
변명아닌 변명을 하자면 대회 시작 초기때 공개되었던 야놀자에서 upstage/SOLAR-10.7B-v1.0을 한국어 데이터들로 fine tuning하여 공개한 yanolja/ EEVE-Korean-10.8B-v1.0을 학습하여 생성을 보고 싶어서 해당 모델 학습으로 전환함.(Day-2)

epoch5epoch1
형식 10.6410.638
  • polyglot 12.8b 4bit의 rag 결과도 제출을 해봤었다면 좋았을텐데 하는 아쉬움
  • llama2 실험과 마찬가지로 학습횟수가 클수록 점수가 더 높게 책정되는 것으로 보아 추가적인 학습을 진행해보지 못한 아쉬움

EEVE-Korean-10.8B 4bit

제출 마감일 전전날 yanolja/ EEVE-Korean-10.8B-v1.0을 학습하여 inference를 진행했었지만, 답변 생성까지 문항당 10분정도 소요되었었고 130문항을 생성하는데 약 24시간정도 걸렸었다.
중간에 학습이후 inference하는 부분에서 코드가 문제가 있어서 그랬던 것으로 확인되며, rag까지 포함한 모델을 24시간 걸려 제출을 하고 싶었지만, colab pro의 런타임이 24시간 이후에 종료가 된다는 사실을 몰랐어서 생성 중간에 종료가 되어버렸다.(이때 억장 와르르...)

하지만 생성되고 있는 문항들을 살펴보았을 때 이전 sota 기록보다 더 hallucination이 발생되는 것으로 보여 아마 제출했어도 더 낮은 score을 보였지 않을까 싶다(0.69 정도?)

남아있는 시간 약 5일 동안 증강된 데이터를 가지고 다양한 실험들을 했지만 끝내 더 좋은 성적을 받지 못했다.
그런데 이 글을 작성하며 보니 학습량을 늘렸다면 기존 sota를 넘길수도 있지 않았을까 하는 아쉬움이 남았다.
10b의 모델을 다뤄봤다는 뿌듯함만 남기고 이대로 포기하는 것은 아닌 것 같아,
프로젝트 초기에 생각했던 rag기법을 도입하여 마지막 실험을 진행해보고자 했다.

profile
기록하는 습관을 기르고 싶습니다

0개의 댓글