[KT AIVLE SCHOOL 3기] Mini_Project 4차

류홍규·2023년 4월 25일
0

KT AIVLE SCHOOL 3기

목록 보기
4/4

프로젝트 주제

  • Aivle-Edu 1:1문의 내용 분류기 (text-classification)

(배경지식)
실시간 운영 시스템은 다음과 같이 구성된다.
1. 질문작성
2. 유형분류
3. 질문확인
4. 실시간 답변

(문제점)
이론, 웹, 운영, 코드오류, 원격 지원 요청 등의 태그가 있으나 질문 유형이 제대로 분류되지 않아 문제가 생기는 경우가 많음.

(해결책)
직접 질문을 분류하는 과정이 생략된다면 보다 정확하고 빠른 피드백을 줄 수 있지 않을까?

🎈 데이터 전처리

mecab 형태소 분석기를 활용, subword tokenizer 활용

  • 형태소 분석 후, 각 단어별 빈도수를 계산하여 불용어 사전을 구축하였다.
  • 텍스트 길이를 활용하려고 했으나, 코드는 원래 텍스트 길이가 길기 때문에 생략했다.
  • 워드클라우드 시각화를 진행하였다.

🧨 데이터 모델링

문의 유형 분류 모델 개발하기

  • Bow, Sequence로 vectorization을 수행하였다.
  • Word2vec, fasttext등 다양한 전처리 방법을 사용하였다.
  • 그러나, train데이터에 대한 과적합이 발생하였다.

🎄 데이터 증강방법 고민

train데이터가 너무 적다! 데이터를 증강하는 방법을 생각해보자!

  • Naver cloud platform의 AI서비스를 활용하여 데이터를 증강하였다.
  • 또한 기존 단어를 paraphrasing하는 방법을 생각하여 데이터의 갯수를 2배 이상 증강하였다.

🎄 자연어처리 최신 기법 사용

bert 및 kc - electra 등 다양한 모델을 사용해보자!

  • transformer 외에 attention model, kobert, kc - electra 모델 등을 활용하여 자연어처리 모델을 개선하는데 노력하였다.
  • 모델에 따라 구조가 다르고, 전처리해야하는 방법이 달랐기 때문에 조금 어려운 부분이 있었다.
  • tensorflow는 환경에 따라 에러가 잘 나서, pytorch로 진행하였다.
  • 과적합 문제가 어느 정도 해결이 됨을 알 수 있었다.
profile
공대생의 코딩 정복기

0개의 댓글