NLP Feature Engineering
기본 Feature
- Bow : 각 단어의 출현 빈도를 벡터로 표현
- TF-IDF : 단어의 중요도 평가
- N-gram : 연속된 N개의 단어를 묶어서 분석
- 단어 빈도 : 특정 단어가 얼마나 자주 등장하는지
- 문장 길이 : 각 문장의 단어 수
- 고유 단어 수 : 텍스트에서 중복되지 않는 단어의 수
NLP 규칙 기반 시스템
사전에 정의된 큐칙을 사용해 텍스트르 분석하거나 처리
- 목적
1. 특정 패턴이나 규칙을 탐지
- 구조화되지 않은 데이터를 간단히 처리
- 간단한 작업에서 높은 정확도를 제공
- 장담점
- 장점 : 간단한 문제에서 높은 성능/ 직관적 이해 가능
- 단점 : 복잡한 문제에 비효율 / 확장성 낮음
규칙 기반 시스템 한계
1. 규칙 유지 보수 : 새로운 데이터를 반영하는 규칙 추가
2. 복잡성 증가 : 규칙 수가 증가하면 관리가 어려워짐