Bag of Words (BoW)

김동준·2025년 9월 15일

LLM

목록 보기
3/50

Bag of Words (BoW)

정의: 텍스트를 단어들의 집합(가방)으로 표현하는 자연어 처리 기법

핵심 특징:

  • 단어 순서 무시: 문장의 구조나 단어 순서를 고려하지 않음
  • 빈도 기반: 각 단어가 문서에서 몇 번 나타나는지만 중요
  • 벡터 표현: 문서를 숫자 벡터로 변환

예시:

문서 1: "I love machine learning"
문서 2: "Machine learning is great"

전체 어휘: [I, love, machine, learning, is, great]

BoW 벡터:
문서 1: [1, 1, 1, 1, 0, 0]
문서 2: [0, 0, 1, 1, 1, 1]

장점:

  • 구현이 간단하고 직관적
  • 계산 비용이 낮음
  • 텍스트 분류에서 효과적

단점:

  • 단어 순서 정보 손실
  • 문맥 정보 무시
  • 희소 벡터 생성 (대부분이 0)
  • 동의어나 유사한 의미 구분 못함

응용 분야:

  • 문서 분류
  • 스팸 메일 필터링
  • 감정 분석
  • 정보 검색

변형:

  • TF-IDF: 단어 빈도와 역문서 빈도 결합
  • Binary BoW: 단어 존재 여부만 표시 (0 또는 1)
  • N-gram BoW: 단어 조합까지 고려
profile
Story Engineer

0개의 댓글