자연어 데이터 준비

모와이·2026년 1월 20일

llm

목록 보기
3/20

NLP Feature Engineering

기본 Feature

  1. Bow : 각 단어의 출현 빈도를 벡터로 표현
  2. TF-IDF : 단어의 중요도 평가
  3. N-gram : 연속된 N개의 단어를 묶어서 분석
  4. 단어 빈도 : 특정 단어가 얼마나 자주 등장하는지
  5. 문장 길이 : 각 문장의 단어 수
  6. 고유 단어 수 : 텍스트에서 중복되지 않는 단어의 수

NLP 규칙 기반 시스템

사전에 정의된 큐칙을 사용해 텍스트르 분석하거나 처리

  • 목적
    1. 특정 패턴이나 규칙을 탐지
    1. 구조화되지 않은 데이터를 간단히 처리
    2. 간단한 작업에서 높은 정확도를 제공
  • 장담점
    • 장점 : 간단한 문제에서 높은 성능/ 직관적 이해 가능
    • 단점 : 복잡한 문제에 비효율 / 확장성 낮음

규칙 기반 시스템 한계
1. 규칙 유지 보수 : 새로운 데이터를 반영하는 규칙 추가
2. 복잡성 증가 : 규칙 수가 증가하면 관리가 어려워짐

profile
공부하는거 정리하는 블로그

0개의 댓글