Data-Centric AI

Data-Centric AI의 개념

  • Data-Centric AI는 모델 개선보다 데이터 품질 향상에 초점을 맞춘 접근 방식
  • 기존의 Model-Centric AI가 동일한 데이터셋으로 모델 아키텍처를 개선하는 데 집중했다면, Data-Centric AI는 모델은 고정한 채 데이터의 품질과 다양성을 개선하는 데 주력

특징

  • 데이터 품질 중시: 노이즈가 적고 일관성 있는 고품질 데이터 확보에 집중합니다.
  • 데이터 다양성 확보: 다양한 상황과 엣지 케이스를 포함한 포괄적인 데이터셋을 구축합니다.
  • 지속적인 데이터 개선: 모델 성능 향상을 위해 데이터를 지속적으로 정제하고 보강합니다.
  • 도메인 전문성 활용: 데이터 라벨링과 큐레이션에 도메인 전문가의 지식을 적극 활용합니다.

사례

  • 구글의 XLDA(Cross-lingual Data Augmentation)
  • 테슬라의 자율주행 데이터 수집
  • 의료 영상 분야의 데이터 큐레이션

미래 발전 방향

  • 자동화된 데이터 품질 관리: 머신러닝을 활용하여 데이터의 품질을 자동으로 평가하고 개선하는 도구들이 더욱 발전할 것입니다.
  • 합성 데이터의 활용 증가: 실제 데이터 수집의 한계를 극복하기 위해 GAN이나 다양한 시뮬레이션 기술을 활용한 고품질 합성 데이터의 생성과 활용이 증가할 것입니다. 특히 프라이버시 문제가 중요한 의료, 금융 분야에서 합성 데이터의 역할이 중요해짐
  • 설명 가능한 AI와의 결합: 데이터 중심 접근법과 설명 가능한 AI 기술이 결합되어, 모델의 예측 결과뿐만 아니라 그 결과에 영향을 미친 데이터의 특성까지 설명할 수 있는 시스템의 개발

데이터 기획

데이터 구축 프로세스

  • 데이터 요구사항 정의: 프로젝트의 목적과 필요한 데이터의 특성을 명확히 정의합니다.
  • 데이터 수집: 다양한 방법을 통해 원시 데이터를 수집합니다.
  • 데이터 전처리: 수집된 데이터를 정제하고 구조화합니다.
  • 데이터 라벨링: 필요한 경우 데이터에 레이블을 부여합니다.
  • 데이터 검증: 데이터의 품질과 일관성을 검증합니다.
  • 데이터 증강: 필요시 데이터를 증강하여 다양성을 확보합니다.
  • 데이터 저장 및 관리: 구축된 데이터를 적절히 저장하고 버전 관리합니다.

데이터 구축 기획서 작성 방법

  • 명확한 목표 설정: 데이터 구축의 목적과 최종 활용 방안을 명확히 제시합니다.
  • 상세한 데이터 명세: 수집할 데이터의 종류, 형식, 양, 품질 기준 등을 상세히 기술합니다.
  • 구체적인 수집 방법론: 데이터 수집 방법, 도구, 프로세스를 구체적으로 설명합니다.
  • 품질 관리 계획: 데이터 품질을 보장하기 위한 검증 방법과 기준을 제시합니다.
  • 일정과 리소스 계획: 데이터 구축에 필요한 시간, 인력, 비용 등을 상세히 계획합니다.
  • 윤리 및 법적 고려사항: 개인정보 보호, 저작권 등 관련 법규 준수 방안을 포함합니다.
  • 위험 관리 계획: 잠재적 문제와 대응 방안을 사전에 고려합니다.

데이터 수집

직접 수집

특징: 가장 정확하고 목적에 맞는 데이터를 얻을 수 있음
장점: 데이터의 품질과 신뢰성이 높음
단점: 시간과 비용이 많이 소요됨

크롤링

특징: 웹에서 자동으로 데이터를 수집함
장점: 대량의 데이터를 빠르게 수집할 수 있음
단점: 법적, 윤리적 문제가 발생할 수 있으며, 데이터 품질 관리가 필요함

오픈 소스

특징: 공개된 데이터셋을 활용함
장점: 비용이 적게 들고 즉시 사용 가능함
단점: 특정 목적에 완벽히 부합하지 않을 수 있음

크라우드소싱

특징: 다수의 참여자로부터 데이터를 수집함
장점: 다양성이 높고 대규모 데이터 수집이 가능함
단점: 품질 관리가 어려울 수 있음

데이터 수집 방법과 주의사항

  • 개인정보 보호:

GDPR, CCPA 등 관련 법규를 준수해야 함
개인식별정보(PII)의 수집, 저장, 처리에 대한 명확한 동의를 받아야 함
필요 최소한의 개인정보만을 수집해야 함

  • 저작권 준수:

타인의 저작물을 무단으로 수집하지 않아야 함
필요한 경우 적절한 라이선스를 획득해야 함

  • 데이터 편향성 고려:

특정 그룹에 대한 차별이나 편견을 야기할 수 있는 데이터 수집을 피해야 함
다양성과 포용성을 고려한 데이터 수집이 필요함

  • 투명성 확보:

데이터 수집의 목적과 방법을 명확히 공개해야 함
데이터 주체에게 정보 접근 및 삭제 권한을 제공해야 함

  • 보안 유지:

수집된 데이터의 안전한 저장과 관리가 필요함
데이터 유출 방지를 위한 적절한 보안 조치를 취해야 함

데이터 라벨링

라벨링 가이드라인 작성

  • 명확한 정의:

각 라벨의 의미와 범위를 명확하게 정의해야 함
애매한 경우에 대한 판단 기준을 구체적으로 제시해야 함

  • 일관성 있는 예시:

다양한 상황에 대한 구체적인 예시를 제공해야 함
긍정적 예시뿐만 아니라 부정적 예시도 함께 제시해야 함

  • 체계적인 구조:

라벨링 프로세스를 단계별로 명확하게 설명해야 함
복잡한 작업의 경우 결정 트리 등을 활용하여 구조화해야 함

  • 품질 관리 기준:

라벨링 품질을 평가하는 기준을 명확히 제시해야 함
품질 검증 프로세스를 상세히 설명해야 함

  • 도구 사용 가이드:

라벨링에 사용되는 도구나 플랫폼의 사용법을 상세히 설명해야 함

CV와 NLP 도메인별 라벨링 규칙 설정

CV

  • 바운딩 박스 규칙:

객체를 둘러싸는 박스의 정확한 크기와 위치 지정 방법
겹치는 객체 처리 방법 (예: IoU 기준)

  • 세그멘테이션 규칙:

픽셀 수준의 정확한 경계 지정 방법
복잡한 형태나 작은 객체 처리 방법

  • 키포인트 규칙:

주요 포인트의 정확한 위치 지정 방법
가려진 키포인트 처리 방법

  • 다중 레이블 처리:

한 이미지에 여러 객체가 있을 때의 처리 방법
객체 간 관계 표현 방법

NLP

  • 토큰화 규칙:

단어, 문장, 문단 등의 경계 정의 방법
특수문자, 숫자 등의 처리 방법

  • 개체명 인식(NER) 규칙:

개체의 범위 지정 방법 (예: 직위 포함 여부)
중첩된 개체 처리 방법

  • 감성 분석 규칙:

감성의 단계 정의 (예: 3단계 vs 5단계)
문맥에 따른 감성 판단 기준

  • 문장 구조 분석 규칙:

구문 트리 구조화 방법
중의성 해결 기준

  • 다국어 처리 규칙:

언어별 특성을 고려한 라벨링 방법
코드 스위칭 처리 방법

라벨링 툴

데이터 클렌징

데이터 클렌징의 필요성과 방법

필요성:

  • 데이터 품질 향상: 오류와 불일치를 제거하여 데이터의 정확성을 높입니다.
  • 분석 결과 개선: 클린한 데이터는 더 정확한 분석과 예측 결과를 제공합니다.
  • 시스템 효율성: 불필요한 데이터를 제거하여 저장 공간과 처리 시간을 절약합니다.
  • 규제 준수: 데이터 관련 법규를 준수하는 데 도움이 됩니다.

주요 방법:

  • 중복 제거: 동일한 데이터의 중복 엔트리를 식별하고 제거합니다.
  • 표준화: 데이터 형식을 일관되게 만듭니다 (예: 날짜 형식 통일).
  • 유효성 검사: 데이터가 정의된 규칙과 제약 조건을 충족하는지 확인합니다.
  • 결측치 처리: 누락된 데이터를 적절한 방법으로 채우거나 제거합니다.
  • 이상치 탐지 및 처리: 비정상적인 값을 식별하고 수정하거나 제거합니다.
  • 데이터 변환: 분석에 적합한 형태로 데이터를 변환합니다.

IAA(Inter-Annotator Agreement)를 활용한 데이터 평가 방법

장점:

  • 객관성 확보: 여러 주석자 간의 일치도를 측정하여 데이터 라벨링의 객관성을 평가할 수 있습니다.
  • 일관성 검증: 라벨링 가이드라인의 명확성과 주석자들의 이해도를 검증할 수 있습니다.
  • 품질 개선: 낮은 IAA 점수를 통해 개선이 필요한 부분을 식별할 수 있습니다.
  • 신뢰성 향상: 높은 IAA 점수는 데이터셋의 신뢰성을 입증하는 지표가 됩니다.

단점:

  • 시간과 비용: 여러 주석자가 동일한 데이터를 라벨링해야 하므로 시간과 비용이 증가합니다.
  • 복잡한 태스크의 한계: 매우 전문적이거나 복잡한 태스크의 경우 주석자 간 일치도가 낮아질 수 있습니다.
  • 주관성 완전 배제 불가: 완벽한 객관성을 보장하기는 어렵습니다.
  • 샘플 선정의 어려움: IAA 측정을 위한 대표 샘플 선정이 쉽지 않을 수 있습니다.

데이터 마무리

데이터 스플릿

목적:

  • 모델 평가: 학습에 사용되지 않은 데이터로 모델의 성능을 객관적으로 평가합니다.
  • 과적합 방지: 모델이 학습 데이터에 과도하게 최적화되는 것을 방지합니다.
  • 모델 일반화: 다양한 데이터로 학습하고 검증하여 모델의 일반화 성능을 향상시킵니다.

주요 방법:

  • 홀드아웃 방법 (Train-Test Split):
  • K-폴드 교차 검증:
  • 계층화 샘플링 (Stratified Sampling):
  • 시계열 데이터 분할:

합성 데이터 생성

장점:

  • 데이터 부족 문제 해결: 실제 데이터 수집이 어려운 경우 대안이 됩니다.
  • 프라이버시 보호: 개인정보가 포함되지 않은 데이터로 학습이 가능합니다.
  • 균형적인 데이터셋 구성: 희소한 클래스나 케이스를 추가로 생성할 수 있습니다.
  • 비용 절감: 실제 데이터 수집에 비해 비용이 적게 듭니다.

단점:

  • 현실성 부족: 실제 데이터의 복잡성을 완벽히 재현하기 어려울 수 있습니다.
  • 편향 가능성: 생성 모델의 편향이 합성 데이터에 반영될 수 있습니다.
  • 검증의 어려움: 합성 데이터의 품질을 객관적으로 평가하기 어려울 수 있습니다.

주요 기술:

  • GAN (Generative Adversarial Networks):

생성자와 판별자 네트워크의 경쟁을 통해 실제와 유사한 데이터를 생성합니다.
이미지, 텍스트 등 다양한 도메인에 적용 가능합니다.

  • VAE (Variational Autoencoders):

인코더-디코더 구조를 사용하여 데이터의 잠재 표현을 학습하고 새로운 데이터를 생성합니다.
연속적인 잠재 공간을 통해 다양한 변형을 생성할 수 있습니다.

  • SMOTE (Synthetic Minority Over-sampling Technique):

소수 클래스의 샘플을 보간하여 새로운 샘플을 생성합니다.
불균형 데이터셋 문제 해결에 효과적입니다.

  • 시뮬레이션 기반 방법:

물리적 모델이나 규칙 기반 시스템을 사용하여 데이터를 생성합니다.
자율주행, 로봇공학 등의 분야에서 활용됩니다.

액티브 러닝

정의:

모델이 학습에 가장 유용한 데이터를 선별하여 라벨링을 요청하는 기계학습 방법

목적:

  • 라벨링 비용 절감
  • 데이터 효율성 향상
  • 모델 성능 최적화

주요 시나리오:

  • 스트림 기반 (Stream-based)
  • 풀 기반 (Pool-based)
  • 멤버십 질의 (Membership query synthesis)

주요 샘플링 전략:

  • 불확실성 샘플링 (Uncertainty Sampling)
  • 쿼리 바이 커미티 (Query by Committee)
  • 기대 모델 변화 (Expected Model Change)
  • 기대 오류 감소 (Expected Error Reduction)
  • 밀도 가중 (Density-Weighted Methods)

불확실성 샘플링 방법:

  • 최소 신뢰 (Least Confidence)
  • 최소 마진 (Margin Sampling)
  • 엔트로피 (Entropy)

장점:

  • 라벨링 비용 감소
  • 데이터 효율성 증가
  • 모델 성능 향상 가속화
  • 편향 데이터 문제 완화

단점:

  • 초기 모델의 성능에 의존적
  • 계산 비용 증가 가능성
  • 배치 학습에 비해 복잡한 구현

구현 단계:

  • 초기 학습 데이터셋 준비
  • 초기 모델 학습
  • 미 라벨링 데이터에 대한 예측 수행
  • 샘플링 전략 적용하여 데이터 선택
  • 선택된 데이터 라벨링
  • 새로운 데이터로 모델 재학습
  • 성능 평가 및 반복

주의사항:

  • 적절한 초기 데이터셋 구성
  • 다양성을 고려한 샘플링
  • stopping criteria 설정
  • 모델 편향 주의

활용 분야:

  • 텍스트 분류
  • 개체명 인식
  • 이미지 분류
  • 음성 인식
  • 이상 탐지

최신 트렌드:

  • 딥러닝과의 결합
  • 준지도 학습과의 통합
  • 강화학습 기반 액티브 러닝
  • 멀티모달 액티브 러닝

데이터 릴리즈

profile
인공지능관련 작업중

0개의 댓글