[KoBERT] 다중감성분류모델 구현

임혜림·2023년 12월 28일
0

자연어처리

목록 보기
2/7

프로젝트 설명

Selfume은 사용자의 감정에 맞춰 자유롭게 시료를 조합하여 향수를 제작할 수 있는 셀프 제작소이다. 웹 인터페이스, 감정 분류 인공지능, 그리고 아두이노를 결합하여 사용자가 작성한 감정 기반의 사연 텍스트를 분석하고, 분석된 감정을 기반하여 향수를 추천해주고 제작하게 한다.
https://o365skku-my.sharepoint.com/:p:/g/personal/joey1109_o365_skku_edu/EVjTppb7WK9Ik64Vo5AVrPEBgIgrFy31OkEmB0J5CWDacg?rtime=9MvepcAH3Eg

KoBERT란?

KoBERT SKT Brain에서 배포한 한국어 버전의 자연어 처리 모델이다.
-BERT(Bidirectional Encoder Representations from Transformers)는 2018년에 구글이 공개한 사전 훈련된 모델이다. 해당 모델은 방대한 양의 데이터(약 33억개 단어)로 먼저 학습(pretrain)되어 있고, 자신의 사용 목적에 따라 파인튜닝(finetuning)이 가능하다는 점에서 많은 인기를 얻었다.
-KoBERT는 그러한 BERT 모델에서 한국어 데이터를 추가로 학습시킨 모델로, 한국어 위키에서 5백만개의 문장과 54백만개의 단어를 학습시킨 모델이다. 따라서 한국어 버전의 BERT라고도 할 수 있다.

데이터셋

'AI HUB의 감성대화 말뭉치'를 사용했다.
https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=86

colab 코드

6가지 감정을 분류한다.
https://colab.research.google.com/drive/1C3La67nJz_ZhtvkdSLnOdFYk-Kbzxad4

profile
hello world

0개의 댓글