[NLP 2] 텍스트 데이터의 구조와 성분

방선생·2025년 1월 10일
0

텍스트 데이터 전처리

텍스트 데이터에서 불필요한 데이터를 처리하는 작업

텍스트 전처리

  • 문장 부호 등 특수문자 제거
  • 불용어(stopword) 제거: 빼도 말이 되는 단어 제거(be동사, 관사, 접속사, 조동사 등)
  • Transformer 이후 모델들에선 문장 전체의 의미를 파악해야하기 때문에 안하는 추세

형태소

  • 개념 : 뜻을 가지고 있는 말 중 가장 작은 단위, 더 나눌 수 없는 단위
  • 9품사-조사를 제외하고 혼자 쓰일 수 있는 단어로 취급 (형식형태소(조사, 어미, 접사) == 불용어), 한글을 토큰화하기 위해서는 품사,단어 보다 작은 단위인 형태소 단위로 분할 해야함 > 형태소 분석기 등 활용

한국어와 영어의 불용어 차이

  • 영어 : 불용어 → 단어(대명사, 관사, 접속사, 조동사 등)

  • 한글 : 불용어 → 조사, 어미 등 형태소
    ① 꽃밭에 꽃이 많이 피었다
    : 꽃밭(명사)+에(조사), 꽃(명사)+이(조사), 많이(부사), 피었다(동사)
    ② 용언의 경우 1단어가 어간 + 어미의 형태로 2개 이상의 형태소로 구성되는 경우가 많음
    : 피었다 → 피 (어간)/었 (어미)/다 (어미)
profile
AI & Robotics

0개의 댓글