부스트캠프 AI Tech 5기 11주차 [KLUE 3주차]

README·2023년 5월 19일
0

KLUE 프로젝트 회고

3주간의 KLUE 프로젝트가 끝이 났다. 최종 성적은 처음에 목표로 했던 성적에 미치지 못해서 아쉬운 느낌은 좀 있지만 새로운 시작으로서는 나쁘지 않았던 것 같다. 이번 프로젝트에서 가장 좋았던 점은 팀으로서의 협업을 경험해봤다는 점이다. 지금까지 팀으로 프로젝트를 진행할 때는 사실 이름만 팀 프로젝트일 뿐 제대로 된 협업을 한 적이 없었는데 이번에는 깃을 활용해 코드를 관리하고 실험 결과를 공유하며 협업했다. 사실 이 정도도 실제 직장에서의 협업에 비하면 매우 부족하겠지만 그래도 비슷하게나마 경험을 해봤다는데 큰 의미를 부여하고 싶다.

KLUE 프로젝트에서 나의 시도

KLUE 프로젝트를 시도하며 여러 시도를 해보았는데 그 중 몇가지를 간단히 정리를 해보았다.
문장 일부 요소 랜덤 삭제: EDA라는 논문에서 텍스트 데이터를 증강할 수 있는 4개의 간단한 방법을 설명하고 있는데 그중 하나인 Random Deletion 기법을 시도하였다. 문장 일부를 삭제해도 의미가 유지될까 하는 생각이 들었지만 놀랍게도 어느 정도는 의미를 유지할 수 있다고 한다. 실제로 실험 단계에서는 어느 정도 유의미한 성능 상승을 보였다. 하지만 리더보드에서는 오히려 점수가 하락하는 모습을 보였고 다른 방법을 찾아보게 되었다.
MLM 모델을 통한 데이터 증강: 이 방법은 문장 일부를 masking 한 뒤 MLM 모델을 통해 해당 위치에 들어갈 단어를 예측해서 새로운 문장을 생성하는 기법이다. MLM 모델을 사용하면 랜덤 방식보다 더 원래 문장에 가까운 의미를 가진 문장을 생성할 수 있지 않을까 해서 사용해보았고 실제로 랜덤 삭제 방식보다 더 좋은 성능을 보였다.
문장 유사도 측정을 통한 데이터 검증: 데이터 증강 시에 생성된 모든 문장을 사용하는 것보다는 일정 기준치를 통과한 문장만을 사용하면 더 좋은 성능을 보일 수 있을 것 같아서 시도해보게 되었다. 실험을 해본 결과 문장 유사도가 0.9 이상인 문장들만을 사용할 때 가장 좋은 성능을 보였다. 기준치가 낮아지면 필터링이 약해져 좋지 않은 문장이 포함되고 기준치가 높아지면 사용하는 문장들이 너무 적어지기도 했고 적당한 노이즈는 학습에 도움을 줄 수 있어서 그런 것 같다.

KLUE 프로젝트 마스터클래스 후기

부스트캠프에서는 프로젝트가 끝나면 마스터클래스 시간에 우수한 성적을 거둔 2팀이 자신들의 프로젝트 내용을 발표하는 시간을 가진다. 이런 시간을 통해서 다른 팀은 어떤 식으로 프로젝트를 진행했고 왜 좋은 성적을 받았는지 알아볼 수 있어서 좋은 것 같다. 프로젝트를 진행하다 보면 도저히 답이 보이지 않는 문제를 많이 마주치게 되는데 그런 문제에 대한 답을 다른 팀에게서 찾으며 다음번에 비슷한 문제를 만났을 때는 해결할 수 있는 역량을 갖추는 것이 아마 프로젝트 발표의 목표일 것으로 생각한다. 비록 지금은 다른 팀의 프로젝트를 보며 감탄을 하는 처지지만 언젠가는 나도 문제 해결 역량을 길러서 저런 멋있는 AI 엔지니어가 될 날이 올 것이다.

profile
INTP 개발자 지망생

0개의 댓글