Data-Centric(6): NLP History

SeongGyun Hong·2024년 10월 29일

NaverBoostCamp

목록 보기
18/64

1. 규칙 기반 NLP

  • Rule에 맞게 처리하는 시스템
  • 전문가적인 지식을 활용
  • 형태소, 구문, 의미 분석 등의 언어학적 지식이 중요했음

2. 통계 기반 NLP

  • 모두가 무의식적으로 생산한 대량의 데이터(=빅데이터)를 활용한다.

  • 대용량의 데이터를 기반으로 통계적 모델링을 통해 NLP Task를 수행한다.

  • 다만, Sparsity Problem으로 인한 한계에 도달했다. 즉, 충분한 양의 데이터를 사용하지 못하여 언어를 정확하게 Modeling하지 못하는 문제점

  • 전문가의 시대에서 모두의 시대로 넘어간 의미가 있음

  • 전문가의 중요성 보다 더 많은 데이터가 중요해졌음

3. ML 및 DL 기반 NLP

  • 전문가와 모두가 함께하는 공존의 시대
  • 규칙기반 모델이 전문가의 실력이라는 상한을 넘기 어려웠으나, 머신러닝/딥러닝 기반의 모델은 양질의 풍족한 데이터가 있다면 인간의 실력을 넘어설 수 있음
  • DL은 ML보다 Feature Extraction이 가능하다.

4. Pre-train & Fine-tuning 기반 NLP

  • 대중이 만든 데이터(pre-train)와 전문가(fine-tuning)가 만든 데이터가 합쳐진다.
  • 위의 흐름을 거쳐 모델의 성능을 평가할 필요가 생겨 벤치마크가 등장함

5. Neural Symbolic NLP

  • 전문가의 시대
  • DL의 한계점에 대해 논리적으로 파고드는 단계
  • 전문가의 데이터를 적극적으로 활용하여 상식, 추론 등의 모델 한계를 보완시킴

6. Large Language Models

  • 대규모 언어 모델의 등장
  • 국내 및 국외 다양한 기업이 자신만의 LLM 개발
  • In-Context Few-Shot Learning
  • Prompt Learning
  • LLaMA, PaLM, GPT, DALL-e, KoGPT, Hyper CLoVA, EXAONE
  • 모두가 무의식적으로 데이터를 생성하는 시대

7. Human FeedBack Data 기반 NLP

  • ChatGPT
    무의식적인 데이터 생성이 아닌, 모델에게 피드백을 주기 위한 데이터 생성
    피드백을 반영하는 Reinforcement Learning
  • 의식적으로 데이터를 생성하여 피드백을 준다.
profile
헤매는 만큼 자기 땅이다.

0개의 댓글