Data-Centric AI vs. Model-Centric AI
page: https://dcai.csail.mit.edu/lectures/data-centric-model-centric/
Youtube: https://www.youtube.com/watch?time_continue=2461&v=ayzOzZGHZy4&embeds_euri=https%3A%2F%2Fdcai.csail.mit.edu%2F&feature=emb_logo
Lab: https://github.com/dcai-course/dcai-lab/blob/master/data_centric_model_centric/Lab%20-%20Data-Centric%20AI%20vs%20Model-Centric%20AI.ipynb
Data-Centric AI
AI method를 사용해서 systematically하게 real-world dataset에 있을 수 있는 문제들을 진단하고, 치료!
어떤 데이터가 easy data인지, mislabeled data인지 훈련된 모델 이용하여 추정
- Curriculum Learning: 데이터를 파악하고, 모델 성능 개선을 위해 파악한 정보를 활용해서 'easy data'를 우선적으로 사용해서 모델 학습
- Confident Learning: 데이터를 modify해서 'mislabeled data' 제거한 필터링된 데이터셋 사용해서 학습
막대한 비용
최근 주목받는 Data-centric AI 연구
유명 ML 모델들의 성공 비결!
ref: Dall-E 2 데모 영상 https://openai.com/product/dall-e-2
Goal: Build a classifier for product reviews (restricted to the magazine category)
Excellent! I look forward to every issue. I had no idea just how much I didn't know. The letters from the subscribers are educational, too.
Label: ⭐️⭐️⭐️⭐️⭐️ (good)
My son waited and waited, it took the 6 weeks to get delivered that they said it would but when it got here he was so dissapointed, it only took him a few minutes to read it.
Label: ⭐️ (bad)
Task:
실습
- A data-centric AI pipline
- Step 1: Explore the data, fix fundamental issues, and transform it to be ML appropriate. (데이터가 있으면, 일단 탐색해보고 ML에 맞게 변형을 한다!)
- Step 2: Train a baseline ML model on the properly formatted dataset. (변형된 데이터를 가지고 일단 ML 실험을 돌려봐)
- Step 3: Utilize this model to help you improve the dataset (모델을 개선하기 전에 data-centric ai 기술을 적용해서 여러 실험을 돌려봐라!)
- Step 4: Try different modeling techniques to improve the model on the improved dataset and obtain the best model. (3단계에서 개선된 데이터셋을 가지고 이제는 모델링 기술들을 적용해서 실험해봐라!)
신신당부: 절대 2단계에서 4단계로 뛰어넘지 말고, 좋은 시스템 구축을 위해서 3-4단계를 반복해> 라!
Outlier detection and removal
방식 적용해서 HTML 형식 애들 filtering 해줌)좋은 점:
아쉬운 점: