NLP 기본

Heath_Jeong·2021년 3월 7일
0

Ustage Week4 - NLP

목록 보기
1/9
post-thumbnail

NLP (major conferences: ACL, EMNLP, NAACL)

  • State-of-the-art model 사용
  • Low-level parsing
    • 단어를 의미 단위로 준비하기 위한 단계
    • Tokenization
      • 단어를 token 이라 부르고, 주어진 문장을 단어 단위로 쪼개는 과정은 tokenization
    • Stemming
      • 한 단어의 어미 변화를 컴퓨터가 이해하도록 함 (좋다, 좋은데, 좋고 등)
  • Word and phrase level
    • 단어에 대한 분석 단계
    • NER (Named Entity Recognition)
      • New York Times 와 같은 단어를 하나로 인식
    • POS (Part-of-speech) tagging, noun-phrase chunking, dependency parsing, coreference resolution
  • Sentence level
    • 문장 분석 단계
    • Sentiment analysis
      • 문장을 보고 긍정, 부정 구분 (It's not bad → 긍정)
    • Machine translation
      • 주어진 영어 문장을 한글 문장으로 번역할 때, 문장 이해 및 어순 분석하여 번역
  • Multi-sentence and paragraph level
    • 다수의 문장 및 문단 분석
    • Entailment prediction
      • 두 문장간의 논리적 모순 분석
    • Question Answering
      • 독해 기반 질의 응답 (구글에 질문을 하면 예전에는 해당 키워드 문서 나열했다면, 이제는 답을 내놓음)
    • Dialog systems
      • 챗봇같은 대화 수행 시스템
    • Summarization
      • 문서 요약

Text Mining (major conferences: KDD, The WebConf (formerly, WWW), WSDM, CIKM, ICWSM)

  • 빅데이터 분석과 관련 깊음, 1 년 동안 생긴 모든 뉴스 기사에서 키워드를 시간순으로 분석하여 인사이트 제공
  • Document clustering (e.g., topic modeling)
    • 관련된 문서 군집화
  • 컴퓨테이셔널 사회 과학과도 관련
    • SNS 에 많이 사용되는 신조어 분석하여 사회적 인사이트 생성

Information Retrieval (major conferences: SIGIR, WSDM, CIKM, RecSys)

  • 구글이나 네이버 등에서 사용되는 정보 검색 기술
  • 이미 충분히 발전하여 발전이 더딤
  • 추천 시스템은 활발한 연구 중
  • CV (이미지 분야) 는 GAN 등 활용하여 빠르게 발전했으나, NLP 분야는 더디게 발전했음
  • Word Embedding, 여러 차원을 지닌 단어를 점으로 표현 (Word2Vec)
  • 과거에는 RNN 기반 모델이 기본이 되었음
  • 요즘엔 Attention 과 Transformer 기반 모델이 기본
    • 룰 기반 방식 (주어 목적어 보어 등) 은 번역 성능이 낮았음, 어텐션은 단어 간의 관계를 분석하므로 성능이 매우 뛰어남
    • Transformer 모델은 NMT 외에 CV, 시계열 예측, 신약 개발 등 다양한 분야에 사용됨
  • 발전된 Transformer 모델 (e.g., BERT, GPT-3)
    • 단어 관계 분석은 방대한 데이터로 지도학습하고, 전이 학습으로 자가 지도 학습, self-supervised training (데이터에 라벨 없음 → 문장에서 몇 단어를 가려서 앞 뒤 문맥으로 유추하도록 학습) 을 학습하여 성능 향상
    • 이러한 모델들은 엄청난 cost 가 있기 때문에 학습하기 어려움 (OpenAI 에서 만든 GPT-3 학습하는데 전기세만 몇 억원)

참조

  • BoostCamp AI Tech
profile
데이터로 문제를 해결하는 엔지니어를 꿈꿉니다.

0개의 댓글