Bag of Words (BoW)
정의: 텍스트를 단어들의 집합(가방)으로 표현하는 자연어 처리 기법
핵심 특징:
- 단어 순서 무시: 문장의 구조나 단어 순서를 고려하지 않음
- 빈도 기반: 각 단어가 문서에서 몇 번 나타나는지만 중요
- 벡터 표현: 문서를 숫자 벡터로 변환
예시:
문서 1: "I love machine learning"
문서 2: "Machine learning is great"
전체 어휘: [I, love, machine, learning, is, great]
BoW 벡터:
문서 1: [1, 1, 1, 1, 0, 0]
문서 2: [0, 0, 1, 1, 1, 1]
장점:
- 구현이 간단하고 직관적
- 계산 비용이 낮음
- 텍스트 분류에서 효과적
단점:
- 단어 순서 정보 손실
- 문맥 정보 무시
- 희소 벡터 생성 (대부분이 0)
- 동의어나 유사한 의미 구분 못함
응용 분야:
- 문서 분류
- 스팸 메일 필터링
- 감정 분석
- 정보 검색
변형:
- TF-IDF: 단어 빈도와 역문서 빈도 결합
- Binary BoW: 단어 존재 여부만 표시 (0 또는 1)
- N-gram BoW: 단어 조합까지 고려