시리즈

Introduction to Data-Centric AI (MIT Lecture)

1.[DCAI] 1. Data-Centric AI vs. Model-Centric AI

주어진 데이터셋에 대해 최고의 모델을 만드는 것모델: 신경망(neural networks), 의사결정트리(decision tree) 등학습 기법: 정규화(regularization), 최적화 알고리즘(optimization algorithms), 손실 함수(loss f

2024년 9월 15일

2.[DCAI] 2. Label Errors and Confident Learning

머신러닝 분야에서 CIFAR, MNIST, ImageNet, IMDB와 같은 데이터셋을 사용해 본 적이 있다면, class 라벨이 모두 정확하다고 가정했을 것→ 그러나 ImageNet에만도 10만 개 이상의 라벨 오류가 존재Confident Learningcleanla

2024년 9월 16일

3.[DCAI] 3. Class Imbalance, Outliers, and Distribution Shift

많은 실제 분류 문제에서 특정 클래스가 다른 클래스보다 더 많이 나타나는 특성이 있다. 예를 들면:코로나 감염: 모든 환자 중에서 오직 10%만이 코로나에 감염될 수 있다.사기 탐지: 모든 신용 카드 거래 중에서 사기는 거래의 0.2%를 차지할 수 있다.제조 결함 분류

2024년 9월 18일

4.[DCAI] 4. Dataset Creation and Curation

지도 학습을 위한 데이터셋을 생성하려면 예제와 라벨의 수집이 필요하다. 이 포스팅에서는 분류 작업(classification tasks)에 초점을 맞추지만, 이 아이디어는 회귀(regression), 이미지 세그멘테이션(image segmentation), 엔터티 인식

2024년 9월 18일

5.[DCAI] 5. Data-centric Evaluation of ML Models

머신러닝 애플리케이션은 대체로 다음과 같은 과정으로 진행된다:데이터를 수집하고, 해당 애플리케이션에 적합한 머신러닝 작업을 정의한다.수집된 데이터에서 잠재적인 문제를 탐색한다.머신러닝 모델에 적합한 형식으로 데이터를 전처리한다.간단한 모델을 훈련시켜 성능을 검증한다.모

2024년 9월 18일

6.[DCAI] 6. Data Curation for LLMs

대규모 언어 모델(Large Language Models, LLMs)은 자연어 처리(NLP) 분야에 혁명을 일으켰다. 대표적인 예로 ChatGPT, GPT-4, LLaMA 등이 있다. 이러한 모델은 시퀀스-투-시퀀스(seq2seq) 아키텍처를 기반으로 하며, 이전의 단

2024년 9월 19일

7.[DCAI] Special Topic 1. Growing or Compressing Datasets

데이터셋의 확장과 압축 Supervised learning 응용에서 훈련 데이터에 인간이 주석을 다는 것은 시간이 많이 걸리고 비용이 많이 든다. 이 강의에서는 현대의 머신러닝 시스템을 구축할 때 라벨링 부담을 줄이고 어떤 예제를 라벨링할지 신중하게 선택하는 방법에 초

2024년 9월 22일

8.[DCAI] Special Topic 2. Interpretability in Data-Centric ML

해석 가능성(Interpretability)이란 머신러닝 모델의 결정 과정이나 원리를 인간이 이해할 수 있는 정도를 의미한다. 이는 모델의 성능만큼 중요한 요소로, 여러 가지 이유로 필수적이다.해석 가능성이 중요한 이유모델 디버깅 및 검증: 모델의 성능을 개선하고, 실

2024년 9월 22일

9.[DCAI] Special Topic 3. Encoding Human Priors: Data Augmentation and Prompt Engineering

이번 글에서는 머신러닝 모델에 인간의 선험 지식(human priors)을 인코딩하는 방법을 다룬다. 이를 위한 두 가지 대표적인 방법은 다음과 같다.데이터 증강(data augmentation): 학습 데이터를 보강하여 모델의 일반화 성능을 향상시키는 방법프롬프트 엔

2024년 9월 22일

10.[DCAI] Special Topic 4. Data Privacy and Security

머신러닝 모델은 종종 의료 기록과 같은 민감한 데이터를 학습한다. 이러한 모델은 일반적으로 공개적으로 이용 가능하게 제공되며, 모델의 아키텍처나 가중치를 다운로드하거나, 추론 엔드포인트를 통해 블랙박스 방식으로 예측을 할 수 있다. 하지만, 이러한 모델이 학습된 데이터

2024년 9월 22일