[NLP 1] 자연어처리(NLP)란

방선생·2025년 1월 10일

자연어 처리(Natural Language Processing, NLP)

컴퓨터가 인간의 언어를 이해하고 생성하도록 하는 기술

자연어 처리 과정

  1. 텍스트 데이터 수집
    • 공공데이터(AI허브 등)
    • 오픈 API를 통한 데이터 수집
    • 크롤링을 이용한 Web 데이터 수집(SNS/블로그/카페 등)
  1. 전처리 : 텍스트 데이터에서 불필요한 데이터를 처리하는 작업
    • 문장 부호 등 특수문자 제거
    • 불용어(stopword) 제거 : 데이터 분석에서 큰 의미가 없는 단어 제거 (be 동사 등)
  1. 토큰화(tokenization) : 의미 있는 단위로 나누는 작업
    • 문장 토큰화 : 문장의 끝을 나타내는 구두점 기호(.,!,?)를 기준으로 분할
    • 단어 토큰화 : 띄어쓰기 기준으로 분할
    • 형태소 토큰화 : 형태소 단위로 분할
  1. 임베딩 : 텍스트를 숫자로 표현
    • 희소표현(sparse representation)
    • 밀집표현(dense representation)
  1. 모델학습
    • RNN(Recurrent Neural Network)
    • LSTM(Long Short-Term Memory)
    • Transformer


딥러닝 수업내용과 공식문서,GPT,블로그를 참조하여 정리한 내용을 바탕으로 작성하였습니다

profile
AI & Robotics

0개의 댓글