Data-Centric(9): Data-Centric NLP 최근 연구 동향

SeongGyun Hong·2024년 10월 30일

Data-centric NLP naverboostcamp

NaverBoostCamp

목록 보기

22/64

멀티모달 AI와 Neuro-Symbolic AI

1. 멀티모달 AI

정의: 텍스트, 이미지, 오디오 등 서로 다른 데이터 타입을 동시에 처리할 수 있는 AI 시스템

필요성:

현실 세계의 복잡한 문제 해결을 위해 단일 모달 데이터로는 불충분
다양한 감각 정보를 통합하여 더 풍부한 이해와 추론 가능

주요 연구 분야:
1. Mathematical/Arithmetic Reasoning: 텍스트와 이미지를 결합한 수학적 추론
2. Visual Question Answering (VQA): 이미지에 대한 질문에 답변
3. Multimodal Dialog Systems: 텍스트, 이미지, 음성을 통합한 대화 시스템

대표적 데이터셋:

VQA v2.0, TextVQA, OK-VQA (시각적 질의응답)
DialogCC, MMDialog (멀티모달 대화)
FFHQ-Text (얼굴 이미지와 텍스트)
MSR-VTT (비디오-텍스트)

2. Neuro-Symbolic AI

정의: 신경망 기반의 학습(Neuro)과 기호 논리 기반의 추론(Symbolic)을 결합한 AI 접근 방식

목적: 데이터 기반 학습의 유연성과 논리적 추론의 정확성을 통합하여 더 강력하고 해석 가능한 AI 시스템 구축

장단점:

Symbolic AI: 논리적 추론에 강점, 설명 가능성 높음, 데이터 효율적 / 새로운 상황 적응 어려움
Neural AI: 패턴 인식과 일반화에 강점, 대량 데이터 처리 가능 / 논리적 추론과 설명 어려움

주요 연구:

ATOMIC & ConceptNet 5.5: 상식 지식 그래프 구축
COMET: 트랜스포머 기반 자동 지식 그래프 생성
Neuro-Symbolic Procedural Planning: 상식 추론을 활용한 계획 수립

3. Reinforcement Learning in NLP

기본 개념: 언어 모델(LM)을 강화학습의 프레임워크 내에서 훈련

주요 요소:

Agent: 언어 모델
Environment: 입력 프롬프트 또는 텍스트 컨텍스트
Action: 단어 또는 토큰 생성
Reward: 생성된 텍스트의 품질, 일관성, 목표 달성도 등

적용 분야:
1. 대화 시스템 최적화
2. 텍스트 요약 개선
3. 기계 번역 품질 향상
4. 질의응답 시스템 성능 개선

장점:

특정 목표나 제약 조건에 맞는 텍스트 생성 가능
장기적인 보상을 고려한 시퀀스 생성 가능
사용자 피드백을 직접적으로 모델 학습에 반영 가능

4. GPT-4

LLM + Multimodal + RLHF

특징:

창의적 응답
시각적 입력 지원(멀티모달 기능)
더 긴 컨텍스트 지원

GPT-4에서도 Data Flywheel을 통해 지속적인 성능 개선을 시도하고 있다.

한계점:

할루시네이션 문제는 여전히 해결되지 않음
2021년 9월까지의 정보에 한정됨

SeongGyun Hong

헤매는 만큼 자기 땅이다.

이전 포스트

Data-Centric(8): 데이터 증강, 필터링

다음 포스트