AI system = code + data
데이터 센트릭 AI는 모델링이 아닌 데이터를 통한 성능의 향상을 노린다.
Data-Flywheel
DMOps
Data Annotation Tool
Data Software Tool
뭘 할 수 있을까?
-Hate Speech Detection : 혐오 발언 탐지
-Counter Speech Generation : 대응 발화 생성
-Quality Estimation : 기계 번역 품질 예측
-Automatic Post Editing : 기계 번역 결과 자동 수정
-Persona-grounded Dialogue : 개인의 특성, 성격 등을 반영한 대화
-Persuasive Dialogue : 사용자를 설득하기 위한 대화
-Dialogue Summarization : 대화 요약
-Question Generation : 질문과 답변에 따라 질문을 생성
-Document-level Relation Extraction : 문서 전체에서 개체와 관계를 추출
한국어 데이터셋 : 고전어, 케어콜, 혐오 발언 탐지, 문법 교정 등
Evaluation 또한 신경써야한다. 주요 메트릭 관념들을 생각 잘 해봐라
-Fleiss' Kappa: 여러 명의 평가자가 있을 때 일치도를 측정하는 지표로, Cohen's Kappa를 확장한 형태
-Krippendorff's Alpha: 다양한 데이터 유형(이산형, 연속형 등)에 대해 평가자 간의 신뢰도를 측정하는 통계적 지표
Data Cascade
Prompt Learning
LLM을 위하여 필요한 것 (More Compute, More Data, Larger Model)
Domain Specialized
Evaluation
Detect GPT
| Version | Input | Output |
|---|---|---|
| SW1.0 | Code In | SW Out |
| SW2.0 | Data In | SW Out |