Data Centric AI

Cho Bryan·2024년 10월 3일

UpstageAILab 국비지원 업스테이지패스트캠퍼스 패스트캠퍼스 패스트캠퍼스AI부트캠프 패스트캠퍼스업스테이지부트 패스트캠퍼스업스테이지에이아이랩

Upstage AI 3기

목록 보기

14/14

Data-Centric AI

Data-Centric AI의 개념

Data-Centric AI는 모델 개선보다 데이터 품질 향상에 초점을 맞춘 접근 방식
기존의 Model-Centric AI가 동일한 데이터셋으로 모델 아키텍처를 개선하는 데 집중했다면, Data-Centric AI는 모델은 고정한 채 데이터의 품질과 다양성을 개선하는 데 주력

특징

데이터 품질 중시: 노이즈가 적고 일관성 있는 고품질 데이터 확보에 집중합니다.
데이터 다양성 확보: 다양한 상황과 엣지 케이스를 포함한 포괄적인 데이터셋을 구축합니다.
지속적인 데이터 개선: 모델 성능 향상을 위해 데이터를 지속적으로 정제하고 보강합니다.
도메인 전문성 활용: 데이터 라벨링과 큐레이션에 도메인 전문가의 지식을 적극 활용합니다.

사례

구글의 XLDA(Cross-lingual Data Augmentation)
테슬라의 자율주행 데이터 수집
의료 영상 분야의 데이터 큐레이션

미래 발전 방향

자동화된 데이터 품질 관리: 머신러닝을 활용하여 데이터의 품질을 자동으로 평가하고 개선하는 도구들이 더욱 발전할 것입니다.
합성 데이터의 활용 증가: 실제 데이터 수집의 한계를 극복하기 위해 GAN이나 다양한 시뮬레이션 기술을 활용한 고품질 합성 데이터의 생성과 활용이 증가할 것입니다. 특히 프라이버시 문제가 중요한 의료, 금융 분야에서 합성 데이터의 역할이 중요해짐
설명 가능한 AI와의 결합: 데이터 중심 접근법과 설명 가능한 AI 기술이 결합되어, 모델의 예측 결과뿐만 아니라 그 결과에 영향을 미친 데이터의 특성까지 설명할 수 있는 시스템의 개발

데이터 기획

데이터 구축 프로세스

데이터 요구사항 정의: 프로젝트의 목적과 필요한 데이터의 특성을 명확히 정의합니다.
데이터 수집: 다양한 방법을 통해 원시 데이터를 수집합니다.
데이터 전처리: 수집된 데이터를 정제하고 구조화합니다.
데이터 라벨링: 필요한 경우 데이터에 레이블을 부여합니다.
데이터 검증: 데이터의 품질과 일관성을 검증합니다.
데이터 증강: 필요시 데이터를 증강하여 다양성을 확보합니다.
데이터 저장 및 관리: 구축된 데이터를 적절히 저장하고 버전 관리합니다.

데이터 구축 기획서 작성 방법

명확한 목표 설정: 데이터 구축의 목적과 최종 활용 방안을 명확히 제시합니다.
상세한 데이터 명세: 수집할 데이터의 종류, 형식, 양, 품질 기준 등을 상세히 기술합니다.
구체적인 수집 방법론: 데이터 수집 방법, 도구, 프로세스를 구체적으로 설명합니다.
품질 관리 계획: 데이터 품질을 보장하기 위한 검증 방법과 기준을 제시합니다.
일정과 리소스 계획: 데이터 구축에 필요한 시간, 인력, 비용 등을 상세히 계획합니다.
윤리 및 법적 고려사항: 개인정보 보호, 저작권 등 관련 법규 준수 방안을 포함합니다.
위험 관리 계획: 잠재적 문제와 대응 방안을 사전에 고려합니다.

데이터 수집

직접 수집

특징: 가장 정확하고 목적에 맞는 데이터를 얻을 수 있음
장점: 데이터의 품질과 신뢰성이 높음
단점: 시간과 비용이 많이 소요됨

크롤링

특징: 웹에서 자동으로 데이터를 수집함
장점: 대량의 데이터를 빠르게 수집할 수 있음
단점: 법적, 윤리적 문제가 발생할 수 있으며, 데이터 품질 관리가 필요함

오픈 소스

특징: 공개된 데이터셋을 활용함
장점: 비용이 적게 들고 즉시 사용 가능함
단점: 특정 목적에 완벽히 부합하지 않을 수 있음

크라우드소싱

특징: 다수의 참여자로부터 데이터를 수집함
장점: 다양성이 높고 대규모 데이터 수집이 가능함
단점: 품질 관리가 어려울 수 있음

데이터 수집 방법과 주의사항

개인정보 보호:

GDPR, CCPA 등 관련 법규를 준수해야 함
개인식별정보(PII)의 수집, 저장, 처리에 대한 명확한 동의를 받아야 함
필요 최소한의 개인정보만을 수집해야 함

저작권 준수:

타인의 저작물을 무단으로 수집하지 않아야 함
필요한 경우 적절한 라이선스를 획득해야 함

데이터 편향성 고려:

특정 그룹에 대한 차별이나 편견을 야기할 수 있는 데이터 수집을 피해야 함
다양성과 포용성을 고려한 데이터 수집이 필요함

투명성 확보:

데이터 수집의 목적과 방법을 명확히 공개해야 함
데이터 주체에게 정보 접근 및 삭제 권한을 제공해야 함

보안 유지:

수집된 데이터의 안전한 저장과 관리가 필요함
데이터 유출 방지를 위한 적절한 보안 조치를 취해야 함

데이터 라벨링

라벨링 가이드라인 작성

명확한 정의:

각 라벨의 의미와 범위를 명확하게 정의해야 함
애매한 경우에 대한 판단 기준을 구체적으로 제시해야 함

일관성 있는 예시:

다양한 상황에 대한 구체적인 예시를 제공해야 함
긍정적 예시뿐만 아니라 부정적 예시도 함께 제시해야 함

체계적인 구조:

라벨링 프로세스를 단계별로 명확하게 설명해야 함
복잡한 작업의 경우 결정 트리 등을 활용하여 구조화해야 함

품질 관리 기준:

라벨링 품질을 평가하는 기준을 명확히 제시해야 함
품질 검증 프로세스를 상세히 설명해야 함

도구 사용 가이드:

라벨링에 사용되는 도구나 플랫폼의 사용법을 상세히 설명해야 함

CV와 NLP 도메인별 라벨링 규칙 설정

CV

바운딩 박스 규칙:

객체를 둘러싸는 박스의 정확한 크기와 위치 지정 방법
겹치는 객체 처리 방법 (예: IoU 기준)

세그멘테이션 규칙:

픽셀 수준의 정확한 경계 지정 방법
복잡한 형태나 작은 객체 처리 방법

키포인트 규칙:

주요 포인트의 정확한 위치 지정 방법
가려진 키포인트 처리 방법

다중 레이블 처리:

한 이미지에 여러 객체가 있을 때의 처리 방법
객체 간 관계 표현 방법

NLP

토큰화 규칙:

단어, 문장, 문단 등의 경계 정의 방법
특수문자, 숫자 등의 처리 방법

개체명 인식(NER) 규칙:

개체의 범위 지정 방법 (예: 직위 포함 여부)
중첩된 개체 처리 방법

감성 분석 규칙:

감성의 단계 정의 (예: 3단계 vs 5단계)
문맥에 따른 감성 판단 기준

문장 구조 분석 규칙:

구문 트리 구조화 방법
중의성 해결 기준

다국어 처리 규칙:

언어별 특성을 고려한 라벨링 방법
코드 스위칭 처리 방법

라벨링 툴

데이터 클렌징

데이터 클렌징의 필요성과 방법

필요성:

데이터 품질 향상: 오류와 불일치를 제거하여 데이터의 정확성을 높입니다.
분석 결과 개선: 클린한 데이터는 더 정확한 분석과 예측 결과를 제공합니다.
시스템 효율성: 불필요한 데이터를 제거하여 저장 공간과 처리 시간을 절약합니다.
규제 준수: 데이터 관련 법규를 준수하는 데 도움이 됩니다.

주요 방법:

중복 제거: 동일한 데이터의 중복 엔트리를 식별하고 제거합니다.
표준화: 데이터 형식을 일관되게 만듭니다 (예: 날짜 형식 통일).
유효성 검사: 데이터가 정의된 규칙과 제약 조건을 충족하는지 확인합니다.
결측치 처리: 누락된 데이터를 적절한 방법으로 채우거나 제거합니다.
이상치 탐지 및 처리: 비정상적인 값을 식별하고 수정하거나 제거합니다.
데이터 변환: 분석에 적합한 형태로 데이터를 변환합니다.

IAA(Inter-Annotator Agreement)를 활용한 데이터 평가 방법

장점:

객관성 확보: 여러 주석자 간의 일치도를 측정하여 데이터 라벨링의 객관성을 평가할 수 있습니다.
일관성 검증: 라벨링 가이드라인의 명확성과 주석자들의 이해도를 검증할 수 있습니다.
품질 개선: 낮은 IAA 점수를 통해 개선이 필요한 부분을 식별할 수 있습니다.
신뢰성 향상: 높은 IAA 점수는 데이터셋의 신뢰성을 입증하는 지표가 됩니다.

단점:

시간과 비용: 여러 주석자가 동일한 데이터를 라벨링해야 하므로 시간과 비용이 증가합니다.
복잡한 태스크의 한계: 매우 전문적이거나 복잡한 태스크의 경우 주석자 간 일치도가 낮아질 수 있습니다.
주관성 완전 배제 불가: 완벽한 객관성을 보장하기는 어렵습니다.
샘플 선정의 어려움: IAA 측정을 위한 대표 샘플 선정이 쉽지 않을 수 있습니다.

데이터 마무리

데이터 스플릿

목적:

모델 평가: 학습에 사용되지 않은 데이터로 모델의 성능을 객관적으로 평가합니다.
과적합 방지: 모델이 학습 데이터에 과도하게 최적화되는 것을 방지합니다.
모델 일반화: 다양한 데이터로 학습하고 검증하여 모델의 일반화 성능을 향상시킵니다.

주요 방법:

홀드아웃 방법 (Train-Test Split):
K-폴드 교차 검증:
계층화 샘플링 (Stratified Sampling):
시계열 데이터 분할:

합성 데이터 생성

장점:

데이터 부족 문제 해결: 실제 데이터 수집이 어려운 경우 대안이 됩니다.
프라이버시 보호: 개인정보가 포함되지 않은 데이터로 학습이 가능합니다.
균형적인 데이터셋 구성: 희소한 클래스나 케이스를 추가로 생성할 수 있습니다.
비용 절감: 실제 데이터 수집에 비해 비용이 적게 듭니다.

단점:

현실성 부족: 실제 데이터의 복잡성을 완벽히 재현하기 어려울 수 있습니다.
편향 가능성: 생성 모델의 편향이 합성 데이터에 반영될 수 있습니다.
검증의 어려움: 합성 데이터의 품질을 객관적으로 평가하기 어려울 수 있습니다.

주요 기술:

GAN (Generative Adversarial Networks):

생성자와 판별자 네트워크의 경쟁을 통해 실제와 유사한 데이터를 생성합니다.
이미지, 텍스트 등 다양한 도메인에 적용 가능합니다.

VAE (Variational Autoencoders):

인코더-디코더 구조를 사용하여 데이터의 잠재 표현을 학습하고 새로운 데이터를 생성합니다.
연속적인 잠재 공간을 통해 다양한 변형을 생성할 수 있습니다.

SMOTE (Synthetic Minority Over-sampling Technique):

소수 클래스의 샘플을 보간하여 새로운 샘플을 생성합니다.
불균형 데이터셋 문제 해결에 효과적입니다.

시뮬레이션 기반 방법:

물리적 모델이나 규칙 기반 시스템을 사용하여 데이터를 생성합니다.
자율주행, 로봇공학 등의 분야에서 활용됩니다.

액티브 러닝

정의:

모델이 학습에 가장 유용한 데이터를 선별하여 라벨링을 요청하는 기계학습 방법

목적:

라벨링 비용 절감
데이터 효율성 향상
모델 성능 최적화

주요 시나리오:

스트림 기반 (Stream-based)
풀 기반 (Pool-based)
멤버십 질의 (Membership query synthesis)

주요 샘플링 전략:

불확실성 샘플링 (Uncertainty Sampling)
쿼리 바이 커미티 (Query by Committee)
기대 모델 변화 (Expected Model Change)
기대 오류 감소 (Expected Error Reduction)
밀도 가중 (Density-Weighted Methods)

불확실성 샘플링 방법:

최소 신뢰 (Least Confidence)
최소 마진 (Margin Sampling)
엔트로피 (Entropy)

장점:

라벨링 비용 감소
데이터 효율성 증가
모델 성능 향상 가속화
편향 데이터 문제 완화

단점:

초기 모델의 성능에 의존적
계산 비용 증가 가능성
배치 학습에 비해 복잡한 구현

구현 단계:

초기 학습 데이터셋 준비
초기 모델 학습
미 라벨링 데이터에 대한 예측 수행
샘플링 전략 적용하여 데이터 선택
선택된 데이터 라벨링
새로운 데이터로 모델 재학습
성능 평가 및 반복

주의사항:

적절한 초기 데이터셋 구성
다양성을 고려한 샘플링
stopping criteria 설정
모델 편향 주의

활용 분야:

텍스트 분류
개체명 인식
이미지 분류
음성 인식
이상 탐지

최신 트렌드:

딥러닝과의 결합
준지도 학습과의 통합
강화학습 기반 액티브 러닝
멀티모달 액티브 러닝

데이터 릴리즈

Cho Bryan

인공지능관련 작업중

이전 포스트