자연어 기초 (텍스트 분류)

모와이·2026년 1월 23일

llm

목록 보기
8/20

텍스트 분류

나이브 베이스

단어 간 독립성을 가정해 확률적으로 텍스트 분류
이 문서는 어떤 클래스 (주제/감정/스팸) 일 확률이 가장 큰가

RNN 분류기

시퀸스 데이터를입력받아 텍스트분류 작업을 수행

  • 장점 : 텍스트의 수너소아 문맥 정보를 효과적 반영 / 가변적 시퀸스 처리 용이 / 감성 분석, 기계 번역 등에서 높은 성능
  • 단점: 긴 시퀸스의 경우 기울기 소실/폭발 문제 가능 / 병렬 처리 어렵고 학습 속도 느림(순차 처리방식에서) / 충분한 양의 데이터와 계산 자원 필요
    - RNN이 불리한 경우 : 매우 긴 텍스트 데이터 => transformer

CNN 분류기

텍스트의 지력적 특징을 추출해 분류에 활용. 커널을 사용해 N-그램 단위 정보 학습

  • 장점 : 벙렬 처리 가능(학습 속도 바름) / 지역적 특징 잘 포착 / RNN보다 비용 낮은경우 많음
  • 단점 : 긴 문장이나 전역적 문맥 정보 포착 한계

멀티레비을 분류

멀티 레이블 분류는 하나의 입력 텍스트가 여러개의 레이블에 속할수 있는 경우를 처리
영화 장르(공포 + 스릴러) + 코메디 -> 각 확률을 정하고 그 확률 이상이면 해당 장르라고 판단

profile
공부하는거 정리하는 블로그

0개의 댓글