Data-Centric(10): 미래 Data-centric AI

SeongGyun Hong·2024년 10월 31일

Data-centric NLP naverboostcamp

NaverBoostCamp

목록 보기

23/64

1. Recap

AI system = code + data

데이터 센트릭 AI는 모델링이 아닌 데이터를 통한 성능의 향상을 노린다.
- 성능 향상을 위한 데이터 관점에서의 고민
Data-Flywheel
DMOps
Data Annotation Tool
Data Software Tool

뭘 할 수 있을까?
-Hate Speech Detection : 혐오 발언 탐지
-Counter Speech Generation : 대응 발화 생성
-Quality Estimation : 기계 번역 품질 예측
-Automatic Post Editing : 기계 번역 결과 자동 수정
-Persona-grounded Dialogue : 개인의 특성, 성격 등을 반영한 대화
-Persuasive Dialogue : 사용자를 설득하기 위한 대화
-Dialogue Summarization : 대화 요약
-Question Generation : 질문과 답변에 따라 질문을 생성
-Document-level Relation Extraction : 문서 전체에서 개체와 관계를 추출
한국어 데이터셋 : 고전어, 케어콜, 혐오 발언 탐지, 문법 교정 등

Evaluation 또한 신경써야한다. 주요 메트릭 관념들을 생각 잘 해봐라
- Cohen's Kappa: 두 명의 평가자 간의 일치도를 측정하는 통계적 지표로, 우연에 의한 일치를 고려하여 평가
-Fleiss' Kappa: 여러 명의 평가자가 있을 때 일치도를 측정하는 지표로, Cohen's Kappa를 확장한 형태

-Krippendorff's Alpha: 다양한 데이터 유형(이산형, 연속형 등)에 대해 평가자 간의 신뢰도를 측정하는 통계적 지표
Data Cascade
Prompt Learning

2. Future Data-Centric AI

LLM을 위하여 필요한 것 (More Compute, More Data, Larger Model)
Domain Specialized
Evaluation
Detect GPT

3. Prompt Engineering

단순히 LLM의 능력치를 발굴하는 것은 Prompt Discovering이다.
진짜 Prompt Engineering은
- CoT
- Prompt Emplate (Pattern -> Compress -> Generalization -> Value)
- 개별 모달리티를 연결하기 위한 Prompt Manager 기술이 중요하다. 이게 third Party를 만드는 것이 핵심 !
- Prompt Manager (Cross Function Modality)
적당한 크기의 LLM와 Visual LLM을 하나의 객체로 두고 이걸 Prompt Manager가 연결시켜준다면 훨씬 효과적인 Multi Modal이 나올 것.

Visual ChatGPT
Toolformer

Prompt Engineering -> 3rd Party Platform
3rd Party Platform은 매우 쉽고 간편한 ... Super Extremely Easy UX가 필요하다. 왜냐하면 데이터 기반으로 성능을 향상시켜야하고, 그 모으는 방식은 매우 쉬워야 하기 때문

4. 요약

3줄 요약

잘 활용을 하자
그러나, 각 기업만의 독자적인 것이 필요하다
미래의 Data Research를 잘 대비하자

SW1.0 vs SW2.0

Version	Input	Output
SW1.0	Code In	SW Out
SW2.0	Data In	SW Out

헤매는 만큼 자기 땅이다.

이전 포스트

Data-Centric(9): Data-Centric NLP 최근 연구 동향

다음 포스트

Generation for NLP: 인코더와 디코더

0개의 댓글