Data-Centric 관점 NLP History 재해석

홍찬우·2023년 7월 29일

DL NLP 네이버 부스트캠프

규칙 기반 NLP

정의 및 특징

Rule에 맞게 처리하는 시스템
Rule 생성을 위해 task에 대한 전문 지식 필요
데이터를 전문가가 만들어야 했음

통계 기반 NLP

정의 및 특징

대량의 텍스트 데이터로 통계를 내어 단어 표현
모두가 무의식적으로 생산한 대량의 데이터를 활용
다음 단어를 확률적으로 예측
Sparsity Problem으로 인한 한계 도달
- 충분한 양의 데이터를 사용하지 못해 언어를 정확하게 modeling하지 못함

Statistical Machine Translation

여러 component 조합으로 시스템 구성
- Translation Model + Language Model + Re-ordering Model
처음에는 단어 단위로 번역 수행
구 단위의 번역 방식 제안
구 내에 변수 개념을 도입한 Hierarchical Phrase-Based SMT 제안
- eat an apple에서 eat X로 치환, X에는 apple banana 등 다양한 단어 수용
Syntax Base SMT 제안
- eat X를 eat NP(명사구)로 변경
- X에 올 수 있는 단어를 한정 지어 불필요한 후보를 제거

ML 및 DL 기반 NLP

정의 및 특징

전문가 + 모두(일반인) 공존의 시대

데이터의 용도

지도학습을 위한 데이터
- 정답을 필요로하는 데이터
- 시간 및 금전 비용 발생
- 대량 구축 어려움
비지도학습을 위한 데이터
- 정답이 필요하지 않은 데이터
- 손쉽게 대량 구축 가능
- 지도학습을 보완하여 성능을 더욱 향상시키는 방법으로 사용

Language Model

컴퓨터가 이해할 수 있는 지식표현 체계로 변환

Pre-train & Fine-tuning 기반 NLP

정의 및 특징

대중이 만든 데이터 (Pre-train) + 전문가가 만든 데이터 (Fine-tune)
대량의 말뭉치로 언어 능력을 pre-training 후 task specific fine-tuning

벤치마크 등장

Task-specific benchmark dataset 대량 등장
훈련, 검증, 평가 데이터로 구성

Neural Symbloic NLP

정의 및 특징

전문가의 데이터를 전면 활용
- 상식정보, 추론 능력 등 딥러닝 모델 한계 보완

예시

Knowledge base에서 정보를 바탕으로 질문에 대답하는 knowledge base question answering

Large Language Models (LLM)

정의

대규모 언어 모델

Foundation Models

adaptation을 통해 task에 맞게 model 학습

In-Context Few-Shot Learning & Prompt Learning

몇 개의 예시를 입력으로 같이 줌
예시의 문맥을 통해 학습

예시

OpenAI GPT-3, Meta의 LLaMA, Google PALM, Naver HyperCLOVA, …

Human FeedBack Data 기반 NLP

ChatGPT

무의식적 데이터 생성이 아닌, 모델에게 피드백을 주기 위한 데이터 생성
피드백을 반영하는 Reinforcement Learning
- 의식적 데이터 생성 = 피드백

검색의 새로운 패러다임

검색의 주도권이 사용자에게 있음
사람이 model의 결과를 수정하도록 만듦

Prompt Engineering

다양한 능력을 가진 ChatGPT의 능력을 발굴
- 이 때 적절한 Prompt가 필요

Summary

규칙 기반 NLP 부터 Human Feedback NLP까지

전문가가 만든 데이터에만 의존하던 시대에서, 모두의 의식적 데이터 생성까지

※ 모든 이미지 및 코드 출처는 네이버 커넥트재단 부스트캠프 AI Tech 5기입니다. ※

홍찬우

AI-Kid

이전 포스트

NLP 분야 특이한 Task 및 Data

다음 포스트

Data-Centric 관점 NLP History 재해석

규칙 기반 NLP

통계 기반 NLP

ML 및 DL 기반 NLP

Pre-train & Fine-tuning 기반 NLP

Neural Symbloic NLP

Large Language Models (LLM)

Human FeedBack Data 기반 NLP

Summary

NLP 분야 특이한 Task 및 Data

Data-Centric NLP 응용 분야

0개의 댓글