Data-Centric(9): Data-Centric NLP 최근 연구 동향

SeongGyun Hong·2024년 10월 30일

NaverBoostCamp

목록 보기
22/64

멀티모달 AI와 Neuro-Symbolic AI

1. 멀티모달 AI

정의: 텍스트, 이미지, 오디오 등 서로 다른 데이터 타입을 동시에 처리할 수 있는 AI 시스템

필요성:

  • 현실 세계의 복잡한 문제 해결을 위해 단일 모달 데이터로는 불충분
  • 다양한 감각 정보를 통합하여 더 풍부한 이해와 추론 가능

주요 연구 분야:
1. Mathematical/Arithmetic Reasoning: 텍스트와 이미지를 결합한 수학적 추론
2. Visual Question Answering (VQA): 이미지에 대한 질문에 답변
3. Multimodal Dialog Systems: 텍스트, 이미지, 음성을 통합한 대화 시스템

대표적 데이터셋:

  • VQA v2.0, TextVQA, OK-VQA (시각적 질의응답)
  • DialogCC, MMDialog (멀티모달 대화)
  • FFHQ-Text (얼굴 이미지와 텍스트)
  • MSR-VTT (비디오-텍스트)

2. Neuro-Symbolic AI

정의: 신경망 기반의 학습(Neuro)과 기호 논리 기반의 추론(Symbolic)을 결합한 AI 접근 방식

목적: 데이터 기반 학습의 유연성과 논리적 추론의 정확성을 통합하여 더 강력하고 해석 가능한 AI 시스템 구축

장단점:

  • Symbolic AI: 논리적 추론에 강점, 설명 가능성 높음, 데이터 효율적 / 새로운 상황 적응 어려움
  • Neural AI: 패턴 인식과 일반화에 강점, 대량 데이터 처리 가능 / 논리적 추론과 설명 어려움

주요 연구:

  • ATOMIC & ConceptNet 5.5: 상식 지식 그래프 구축
  • COMET: 트랜스포머 기반 자동 지식 그래프 생성
  • Neuro-Symbolic Procedural Planning: 상식 추론을 활용한 계획 수립

3. Reinforcement Learning in NLP

기본 개념: 언어 모델(LM)을 강화학습의 프레임워크 내에서 훈련

주요 요소:

  • Agent: 언어 모델
  • Environment: 입력 프롬프트 또는 텍스트 컨텍스트
  • Action: 단어 또는 토큰 생성
  • Reward: 생성된 텍스트의 품질, 일관성, 목표 달성도 등

적용 분야:
1. 대화 시스템 최적화
2. 텍스트 요약 개선
3. 기계 번역 품질 향상
4. 질의응답 시스템 성능 개선

장점:

  • 특정 목표나 제약 조건에 맞는 텍스트 생성 가능
  • 장기적인 보상을 고려한 시퀀스 생성 가능
  • 사용자 피드백을 직접적으로 모델 학습에 반영 가능

4. GPT-4

LLM + Multimodal + RLHF

특징:

  • 창의적 응답
  • 시각적 입력 지원(멀티모달 기능)
  • 더 긴 컨텍스트 지원

GPT-4에서도 Data Flywheel을 통해 지속적인 성능 개선을 시도하고 있다.

한계점:

  • 할루시네이션 문제는 여전히 해결되지 않음
  • 2021년 9월까지의 정보에 한정됨
profile
헤매는 만큼 자기 땅이다.

0개의 댓글