텍스트 분류
나이브 베이스
단어 간 독립성을 가정해 확률적으로 텍스트 분류
이 문서는 어떤 클래스 (주제/감정/스팸) 일 확률이 가장 큰가
RNN 분류기
시퀸스 데이터를입력받아 텍스트분류 작업을 수행
- 장점 : 텍스트의 수너소아 문맥 정보를 효과적 반영 / 가변적 시퀸스 처리 용이 / 감성 분석, 기계 번역 등에서 높은 성능
- 단점: 긴 시퀸스의 경우 기울기 소실/폭발 문제 가능 / 병렬 처리 어렵고 학습 속도 느림(순차 처리방식에서) / 충분한 양의 데이터와 계산 자원 필요
- RNN이 불리한 경우 : 매우 긴 텍스트 데이터 => transformer
CNN 분류기
텍스트의 지력적 특징을 추출해 분류에 활용. 커널을 사용해 N-그램 단위 정보 학습
- 장점 : 벙렬 처리 가능(학습 속도 바름) / 지역적 특징 잘 포착 / RNN보다 비용 낮은경우 많음
- 단점 : 긴 문장이나 전역적 문맥 정보 포착 한계
멀티레비을 분류
멀티 레이블 분류는 하나의 입력 텍스트가 여러개의 레이블에 속할수 있는 경우를 처리
영화 장르(공포 + 스릴러) + 코메디 -> 각 확률을 정하고 그 확률 이상이면 해당 장르라고 판단