Introduction
page: https://dcai.csail.mit.edu/
- "garbage in, garbage out" problem: "쓰레기가 들어가면 쓰레기가 나온다"
[Data-Centric AI (DCAI)란?]
- 일반 ML 수업들을 보면 주어진 데이터로 어떻게 효과적인 모델을 구축할지에 대해서만 가르친다. 하지만 real-world application에서는 데이터가 messy한 경우가 많아서, 데이터 자체를 개선하는 것만으로도 모델 성능 개선을 할 수 있다!
- Data-Centric AI: 데이터셋을 개선하여 모델 성능 improve 하는 science!
[수업 내용]
- ML 데이터셋에 있는 issue들을 발견하고 고칠 수 있는 알고리즘
- supervised learning task에서 더 나은 데이터셋 구축 방법
- youtube 영상 있고, 각 강의마다 과제가 나감
Syllabus
Introduction
- Data-Centric AI vs. Model-Centric AI
- Label Errors
- Dataset Creation and Curation
- Data-centric Evaluation of ML Models
- Class Imbalance, Outliers, and Distribution Shift
- Growing or Compressing Datasets
- Interpretability in Data-Centric ML
- Encoding Human Priors: Data Augmentation and Prompt Engineering
- Data Privacy and Security
주인장 발표 목표!
- 발표 때 최소 2강씩 커버하고, 과제까지 하는 것이 목표!!!!