NLP Overview

홍찬우·2023년 7월 24일
0
post-custom-banner

NLP Tasks


Seq2Seq Learning

n개의 입력과 n 또는 m개의 출력 사이의 관계 파악, 생성

  • 왼쪽에서부터 N2N, N21, N2M 문제


  • N2M은 번역, 대화와 같은 문제에 사용
    • N21, N2N과 다르게 Decoder가 존재


N21

문장, 문서를 입력으로 받아 한 개의 class를 output으로 함

주제 분류(topic classification)

  • 주제가 CLS 토큰으로 출력


문장 유사도 측정

  • 두 문장을 SEP 토큰으로 연결
  • 유사도 스칼라 값을 저장하는 CLS 토큰 사용


Natural Language Inference

  • 가설 문장과 전제 문장 간 관계 추론


N2N

단일 또는 다수 문장을 입력으로 받아 각 토큰들에 대해 모두 출력

개체명 인식

  • 개체명은 사람, 위치, 조직, 시간 표현, 수량 등과 같이 미리 정의


형태소 분석

  • 문장의 모든 토큰을 어떤 형태소인지 매핑


N2M

N21, N2N 문제도 모델링 할 수 있음

decoder 사용

  • 생성하는 task에 사용

기계 번역

  • decoder에서 각 token의 output이 다음 token의 input으로 사용
  • <end> 나올 때까지 반복


대화 모델

요약

  • Extract Summarization : 모델이 중요한 키워드만 문서에서 추출해 요약

  • Abstract Summarization : 모델이 문서를 이해하고 요약을 생성

Image Captioning

  • 이미지를 입력으로 받아 텍스트를 출력 (반대도 가능)

  • encoder에서 이미지를 처리하고 decoder에서 encoder의 feature를 이용해 텍스트 생성

다양한 dataset 존재

  • 영어는 GLUE, 한국어는 KLUE






※ 모든 이미지 및 코드 출처는 네이버 커넥트재단 부스트캠프 AI Tech 5기입니다. ※

profile
AI-Kid
post-custom-banner

0개의 댓글