Data-Centric AI (DCAI)는 인공지능 시스템의 성능을 개선하는 데 있어 데이터의 품질과 일관성을 중심으로 접근하는 최신 AI 개발 패러다임입니다. 이는 모델(Code)을 중심으로 알고리즘을 개선했던 전통적인 Model-Centric AI와 대비됩니다.
본 학습 블로그에서는 제공된 자료를 바탕으로 Data-Centric AI의 주요 개념과 데이터 구축 프로세스, 그리고 관련된 미래 연구 방향을 요약 정리합니다.
AI 시스템의 성능을 개선하기 위해서는 코드(알고리즘/모델)와 데이터라는 두 가지 핵심 요소 중 어느 한쪽을 개선하는 접근 방식이 필요합니다. Data-Centric AI는 데이터의 품질을 향상시켜 AI 시스템의 성능을 개선하는 데 초점을 맞춥니다.
실증적인 연구 사례를 보면, 모델(코드)을 개선하여 성능을 높이는 것보다 데이터(Data)를 개선했을 때 철판 결함 탐지의 경우 16.9%의 성능 향상(Baseline 76.2% → Data 93.1%)을 보일 정도로 데이터의 중요성이 강조됩니다. 데이터는 곧 모델을 학습시키는 데 필요한 '양질의 재료'이기 때문입니다.
Data-Centric AI의 기본기를 다지는 과정은 데이터 구축의 전체 파이프라인을 학습하는 것에서 시작합니다. 데이터 구축 과정은 크게 6가지 단계로 나누어 볼 수 있습니다.
| 단계 | 명칭 | 주요 활동 | 설명 |
|---|---|---|---|
| 1. 데이터 수집 (Data Collection) | 원시 데이터 (Raw Data) 수집 | 구축 목적에 맞는 원본 데이터 획득. | 직접 수집, 웹 크롤링, 오픈 소스, 크라우드소싱 등을 통해 원시 데이터 확보. |
| 2. 데이터 전처리 (Data Preprocessing) | 원천 데이터 (Source Data) 가공 | 수집한 원시 데이터를 가공 및 정제하여 원천 데이터로 만듭니다. | 품질 기준 마련, 개인정보 비식별화, 중복성 방지, 데이터 스키마 설계 등이 포함. |
| 3. 데이터 라벨링 (Data Labeling) | 라벨링 데이터 (Labeled Data) 생성 | 원천 데이터에 라벨/속성을 표기하는 작업. | 가이드라인 작성 및 작업자 교육 후 라벨링 실시 (파일럿 테스트 병행). |
| 4. 데이터 클렌징 (Data Cleansing) | 라벨링 에러 정제 | 라벨링된 데이터의 품질을 검수하고 에러를 수정하는 최종 정제 단계. | IAA 분석, 휴먼 에러 및 라벨링 규칙 에러 클렌징. |
| 5. 데이터 스플릿 (Data Split) | 데이터 분할 | 최종 데이터를 학습(Training), 검증(Validation), 테스트(Testing) 세트로 분할. | 데이터 샘플링 기법(확률적/비확률적)을 활용하여 진행. |
| 6. 데이터 릴리즈 (Data Release) | 최종 데이터 배포 | 구축 의도에 맞는 배포처를 정하고, 활용에 필요한 정보(분석서, 품질 평가서 등)를 제작하여 배포. | Hugging Face, Kaggle, 논문 등 다양한 플랫폼 활용 가능. |
데이터 구축 과정에서 양질의 데이터를 확보하고 품질을 평가하는 것은 Data-Centric AI의 핵심입니다.
IAA는 동일한 작업에 할당된 작업자들 간의 일치 정도를 정량적으로 측정하는 메트릭입니다.
IAA가 높다는 것은 라벨링이 일관성 있게 이루어졌고, 데이터에 노이즈가 적다는 것을 의미하며 모델 성능에 긍정적인 영향을 미칩니다. IAA가 낮을 경우, 작업 난이도, 작업자 실력, 라벨링 규칙 등의 문제로 인해 데이터 품질이 낮다고 판단할 수 있습니다.
IAA 평가 방법으로는 주로 다음 세 가지가 사용됩니다:
데이터 클렌징은 라벨링 에러를 수정하여 데이터 품질을 높이는 과정으로, 휴먼 에러와 라벨링 규칙 에러를 제거하는 것이 목표입니다.
에러 확인 방법:
클렌징 방법:
데이터 수집 과정에서는 법적, 윤리적 문제 발생을 방지하기 위한 세심한 주의가 필요합니다.
| 주의사항 | 내용 및 관련 개념 |
|---|---|
| 라이선스 (License) | 저작권(copyright)은 창작과 동시에 독점적 권리를 부여하지만, 라이선스(이용허락)를 통해 타인의 이용 권한과 조건을 규정합니다. 데이터에는 주로 CCL (Creative Commons License)을 사용하며, BY (저작자 표시), NC (비영리), ND (변경 금지), SA (동일조건변경허락)와 같은 4가지 요소를 조합합니다. |
| 개인정보보호 | 살아 있는 개인에 관한 정보 중, 특정 개인을 알아볼 수 있는 정보는 보호 대상입니다. 개인정보보호를 위해서는 비식별화(De-Identification) 조치를 통해 식별 요소를 제거해야 합니다. (예: 이미지 모자이크/블러, 수치 데이터 라운딩/총계처리, 텍스트 데이터 마스킹). |
| 데이터 윤리 및 편향성 | 인공지능은 학습 데이터에 영향을 받기 때문에, 데이터의 편향성(Bias)은 알고리즘 차별이나 인종/성별/지역 차별 등 윤리적 문제를 야기할 수 있습니다. 따라서 데이터 수집 단계부터 다양성 확보와 편향 방지에 힘써야 합니다. |
Foundation Model (LLM) 시대에 접어들면서, Data-Centric AI는 다음과 같은 방향으로 발전하고 있습니다.
| 발전 방향 | 내용 |
|---|---|
| Multilingual (다국어) | LLM의 등장으로 다국어 모델의 성능이 향상되며, Multilingual 데이터셋이 기본이 되는 추세입니다. BLOOM (59개 언어) 및 PaLM 2 (100여 개 이상)와 같은 다국어 모델이 이를 뒷받침합니다. |
| Multimodal (멀티모달) | 텍스트, 이미지, 음성 등 여러 도메인을 아우르는 데이터 처리가 중요해지고 있습니다. GPT-4, PaLM-E, KOSMOS-2와 같은 Multimodal LLM은 이미지와 텍스트를 동시에 처리할 수 있는 능력을 보여줍니다. |
| Synthetic Data (합성 데이터) | 알고리즘이나 시뮬레이션을 통해 인위적으로 생성된 데이터의 중요성이 커지고 있습니다. 합성 데이터는 수집 및 라벨링 비용을 절감하며, 개인정보 침해 위험을 완화하고, 현실에서 발생하기 어려운 엣지 케이스에 대응하는 데 유용합니다. GANs, VAE, Diffusion, 3D 렌더링 등의 생성 방법이 활용됩니다. |
또한, 모델 학습에 가장 유익한 데이터를 선별하는 액티브 러닝(Active Learning)은 데이터 획득 비용이나 시간이 많이 소요되는 상황에서 적은 라벨 데이터로도 목표 성능에 빠르게 도달하도록 돕는 효율적인 방법론입니다.