자연어 처리

모와이·2026년 1월 19일

llm

목록 보기
2/20

전처리

  1. 모델의 성능과 학습 속도에 큰 영향을 미침
  2. 일관성 있는 데이터 형식을 제공해 모델이 효율적으로 학습 가능

    어휘 크기 (vocab), oov -> 학습 안정성
    max_df, min_df => 과하게 정보를 지우면 필요한 정보도 같이 사라질수있다
    ex : 히히히/ㅋㅋㅋㅋ/하하하 -> ㅋㅋ or 삭제

원시 데이터 처리

  1. 코퍼스 원시 텍스트
  • 원시 텍스트는 코퍼스를 분석하기 전 불필요한 기호나 공백 등을 포함한 상태
  • 이를 처리해 분석 가능한 상태로 변환
  • 필요 작업
    - 불필요한 기호 제거
    • 소문자 변환(일관성 유지)
    • 공백 제거
  1. 코퍼스 원시 문장 처리
  • 원시 문장 처리는 텍스트 데이터를 문장 단위로 분리
  • 문장 끝 기호 (. ! ?)를 기준으로 문장 나눔 but, Dr.John, e.g., 3.14는 애매

    split() => tokenizer

기본 전처리

텍스트 데이터를 정제하는 초기 단계로 특수문자 제거 - 숫자 제거 - 불용어 제거 단계로 이어진다
실제 데이터에서는 도메인에 따른 맞춤형 전처리가 필요(제거 /남길지 / 다른 토큰으로 치환할지)

  1. 텍스트 정규화
  • 목적 : 텍스트를 일관된 형태로 변환하여 처리 용이성을 높인다
  • 주요 작업 : 모든 문자 소문자 변환(혹은 대문자)
  1. 토큰화
  • 목적 : 문장을 단어 또는 하위 단어로 분할 분석
  • 방법 : 단순 공백 기준 분할 / 형태소 분석기 사용 분할 /서브워드
  1. 불용어 제거
    -목적 : 의미에 크게 기여하지 않는 단어 제거(노이즈 줄임) : "은" / "는" / "이" / "가"
  2. 어간 추출 및 표제어 추출
  • stemming : played(play, ed)
  • lemmatization : better -> good(기본형 찾아줌)

KoNLPy 활용

한국어 자연어 처리 지원 라이브러리

  • 형태소 분석기 종류
  1. Okt : 트위터 형태소 분석기
  2. Mecab : 빠른 처리 속도와 정확도
  3. Kkma : 자세한 형태소 분석 결과 제공
profile
공부하는거 정리하는 블로그

0개의 댓글