프로젝트 주제 | Topic Classification(TC) 모델 구조의 변경 없이 Data-Centric 관점으로 데이터의 수정으로만 성능을 향상하여 텍스트의 주제를 분류하는 태스크 |
---|---|
프로젝트 구현내용 | 1. 모델 구조의 변경 없이 Data-Centric 관점으로 데이터의 수정으로만 성능을 향상 2. 뉴스 기사의 제목을 입력으로 하여 해당 기사가 어떤 카테고리에 속하는지를 예측하는 AI 모델 구축 3. 평가지표인 macro F1 점수 향상을 목표로 EDA에 기반한 데이터 전처리, 증강을 진행 |
개발 환경 | GPU: Tesla V100 서버 4개 (RAM32G) /GeForce RTX 4090 로컬 (RAM 24GB) 개발 Tool: PyCharm, Jupyter notebook, VS Code [서버 SSH연결], Colab Pro +, wandb |
협업 환경 | Github Repository: 베이스라인 코드 및 데이터 EDA, 전처리, 증강 코드 공유 및 버전 관리HuggingFace: 데이터셋 공유 및 버전 관리 Notion: KLUE 프로젝트 페이지를 통한 역할분담, 대회 협업 관련 Ground Rule 설정, 아이디어 브레인 스토밍, 대회관련 회의 내용 기록 SLACK, Zoom: 실시간 대면/비대면 회의 |
이름** | 역할 |
---|---|
강민재 | EDA기반 베이스라인 수정, Back Translation을 활용한 데이터 증강, 모델 output 분석을 통한 레이블 에러 탐지 |
김태민 | G2P 증강 데이터 탐지 및 원본 복원 모델 개발 및 배포, 토픽에 해당하는 뉴스 제목 생성하는 모델 개발 및 배포 |
김주원 | EDA(중복 값, 결측치, 레이블별 길이 분포), CleanLab 활용 노이즈 필터링, Confusion Matrix 활용 Error Analysis |
윤상원 | 평가 metric 분석, 크롤링을 통한 G2P 클렌징 및 데이터 증강, 베이스라인 코드 커스터마이징 |
신혁준 | EDA(중복 값, 레이블별 분포), 동일 문장 복제 및 외부 데이터(AI Hub 뉴스 데이터)를 활용한 데이터 증강 |
노이즈로 분류
모든 데이터 증강은 더 많은 개수의 데이터 확보와 더불어, 레이블의 균일 분포를 만족하는 방향으로 수행되었음.
Hugging Face 배포명 | 학습 데이터 | 모델 기능 |
---|---|---|
kfkas/t5-large-korean-P2G | 모두의 말뭉치-신문 말뭉치 (50만Dataset) | G2P 생성 Text를 P2G 변환 모델 |
kfkas/RoBERTa-large-Detection-P2G | 모두의 말뭉치-신문 말뭉치 (5만Dataset) | G2P 생성text를 이진 분류하는 모델 |
kfkas/t5-large-korean-news-title-klue-ynat | KLUE-YNAT (45679Dataset) | 주제를 입력 시 뉴스 제목 생성 |
NLP Topic Classification NLP-08조 팀 회고
이번대회는 아쉽게도 문제점도 많았고 부스트캠프 내에서도 처음하는 대회다 보니 문제점이 많았다. 실질적으로 대회 기간이 적고 할 수 있었는게 적었으며 최종적으로는 원본 순수 데이터가 가장높은 결과를 뽑아내는 신기함을 보였다. 하지만 생성모델을 훈련하고 각종 모델을 배포했었던 점에서 개인적으로 많은 실력 향상이 있어서 나름 생각보다 의미있는 대회였다.