멀티모달 AI와 Neuro-Symbolic AI
1. 멀티모달 AI
정의: 텍스트, 이미지, 오디오 등 서로 다른 데이터 타입을 동시에 처리할 수 있는 AI 시스템
필요성:
- 현실 세계의 복잡한 문제 해결을 위해 단일 모달 데이터로는 불충분
- 다양한 감각 정보를 통합하여 더 풍부한 이해와 추론 가능
주요 연구 분야:
1. Mathematical/Arithmetic Reasoning: 텍스트와 이미지를 결합한 수학적 추론
2. Visual Question Answering (VQA): 이미지에 대한 질문에 답변
3. Multimodal Dialog Systems: 텍스트, 이미지, 음성을 통합한 대화 시스템
대표적 데이터셋:
- VQA v2.0, TextVQA, OK-VQA (시각적 질의응답)
- DialogCC, MMDialog (멀티모달 대화)
- FFHQ-Text (얼굴 이미지와 텍스트)
- MSR-VTT (비디오-텍스트)
2. Neuro-Symbolic AI
정의: 신경망 기반의 학습(Neuro)과 기호 논리 기반의 추론(Symbolic)을 결합한 AI 접근 방식
목적: 데이터 기반 학습의 유연성과 논리적 추론의 정확성을 통합하여 더 강력하고 해석 가능한 AI 시스템 구축
장단점:
- Symbolic AI: 논리적 추론에 강점, 설명 가능성 높음, 데이터 효율적 / 새로운 상황 적응 어려움
- Neural AI: 패턴 인식과 일반화에 강점, 대량 데이터 처리 가능 / 논리적 추론과 설명 어려움
주요 연구:
- ATOMIC & ConceptNet 5.5: 상식 지식 그래프 구축
- COMET: 트랜스포머 기반 자동 지식 그래프 생성
- Neuro-Symbolic Procedural Planning: 상식 추론을 활용한 계획 수립
3. Reinforcement Learning in NLP
기본 개념: 언어 모델(LM)을 강화학습의 프레임워크 내에서 훈련
주요 요소:
- Agent: 언어 모델
- Environment: 입력 프롬프트 또는 텍스트 컨텍스트
- Action: 단어 또는 토큰 생성
- Reward: 생성된 텍스트의 품질, 일관성, 목표 달성도 등
적용 분야:
1. 대화 시스템 최적화
2. 텍스트 요약 개선
3. 기계 번역 품질 향상
4. 질의응답 시스템 성능 개선
장점:
- 특정 목표나 제약 조건에 맞는 텍스트 생성 가능
- 장기적인 보상을 고려한 시퀀스 생성 가능
- 사용자 피드백을 직접적으로 모델 학습에 반영 가능
4. GPT-4
LLM + Multimodal + RLHF
특징:
- 창의적 응답
- 시각적 입력 지원(멀티모달 기능)
- 더 긴 컨텍스트 지원
GPT-4에서도 Data Flywheel을 통해 지속적인 성능 개선을 시도하고 있다.
한계점:
- 할루시네이션 문제는 여전히 해결되지 않음
- 2021년 9월까지의 정보에 한정됨