생성형 AI 데이터 품질 관리

Jae·2025년 6월 29일

NIA에서 제안하는 생성형AI 데이터 품질관리 가이드에서 생성형AI 데이터 품질 관리 확인할 수 있는 좋은 정보가 있어 정리하였습니다.

신뢰할 수 있는 AI 시스템의 특징

유효성 및 신뢰성

  • AI 시스템이 의도한 요구사항을 실패없이 수행하는지에 대한 지속적인 테스트와
    모니터링을 통해 정확성, 강건성을 확인하여 유효성과 신뢰성 확보

안전성

  • AI 시스템은 사람의 생명, 건강, 재산, 또는 환경에 위험이 없도록 안전 위협의 종류, 심각도에 따른 리스크 관리가 필요

보안 및 복원성

  • 의도된 공격을 피하고, 방어하며 복구하는 보안능력과 예상하지 못한 사건이 발생한
    이후 정상 기능으로 돌아갈 수 있는 복원성 필요

책임과 투명성

  • 투명성은 AI 시스템과 결과물 정보를 해당 시스템 사용자가 적절한 수준으로
    접근하여 이용하는 것으로 이때 책임성은 투명성을 전제로 확보 가능

설명 및 해석 가능성

  • AI 시스템이 작동하는 메커니즘 설명과 설계 목적에 따른 결과물에 대한 해석이
    가능하도록 도움이 되는 정보 제시 가능

개인정보보호 강화

  • AI 시스템 설계, 개발, 배포 시 익명성, 기밀성, 통제 등과 같은 개인정보보호 기준
    제시 필요

공정성-유해편견 관리

  • 시스템적 편향, 통계적 편향, 인지적 편향 등 3가지 범주의 편향성 관리와 통제 필요

데이터 구축 과정

  1. 합성 데이터 생성에 필요한 실제 데이터를 수집
  2. 선별된 데이터에 대한 개인 정보 비식별화, 이미지 사이즈 표준화 등 전처리 절차를 수행하여 시드 데이터 생성
  3. 합성 데이터를 생성

데이터 획득/ 수집 단계 품질 확보를 위한 고려 사항

분류 다양성

  • 학습목적에 부합하도록 실제 세상의 데이터와 유사한 특성을 가진 데이터를 확보해야 함
    - 사물, 사람, 장소, 시간, 환경, 언어 특성 등 학습에 유용한 모든 특성 정보를 포함할 수 있도록 고려
    - 사물, 사람, 장소, 시간, 환경, 언어 특성 등의 특성 정보가 학습에 유용한 범위에서 다양하게 수집
    • 데이터가 유사한 변동성(분야별 데이터 변동성)을 고려하여 원시데이터의 품질을 확보 (예시 : 자율주행 데이터, 실도로 위험 상황 데이터 등)

신뢰성

  • 데이터는 반드시 객관성 확보를 위한 신뢰할 수 있는 출처(사람, 기관, 기업)로부터 수집해야 함

충분성

  • 데이터에 포함된 카테고리(분류체계)와 인스턴스(분류체계별 특성을 갖고 있는 데이터) 등 특성 정보는 학습에 유용한 수량이어야 함

균일성

  • 분류/탐지/인식/이해/예측 등의 카테고리(분류체계)별 인스턴스(분류체계별 특성을 갖고 있는 데이터) 수량의 균일성과 적정 비율을 확보해야 함

사실성

  • 원시데이터를 인위적인 환경과 조건하에 수집해야 하는 경우, 반드시 실제 환경과 상황 특성을
    반영해야 함

공평성

  • 원시데이터는 지역, 사회 및 인종적 편견 등 활용 의도와 무관한 편향적인 특성이 제거되고, 윤리적으로 공평해야 함

원시데이터 데이터 생성시 주의사항

  • 원시데이터를 수집하거나 직접 원시데이터를 생성하는 경우, 품질특성을 고려해서 원시데이터의 품질을 확보해야 함

법・제도 준수

  • 원시데이터 획득 시 관련 법・제도적 규정 등을 반드시 준수하여야 함
  • 개인정보 및 사생활 보호가 필요한 항목 획득 시, 개인정보보호법 등에 따라 적절한 법적, 기술적 절차를 거친 데이터를 활용하며, 그렇지 않은 데이터는 정제 과정에서 처리될 수 있도록 함
  • 의료 데이터의 경우는 IRB(의학연구윤리심의위원회)와 데이터 공개에 대한 해당 기관의 동의(DRB)를 사전에 획득 필요
  • 지적 재산권 이슈가 있는 경우 반드시 해결방안을 마련하여 획득해야 함

데이터 다양성 확보

  • 학습모델이 현실을 잘 반영하고 본래의 구축목적을 달성할 수 있도록, 획득하는 데이터가 일부 범주에만 치우치지 않고 가능한 다양한 시간, 공간, 집단 수준 등이 포함할 수 있도록 함
  • 데이터 수집은 데이터 분야 특이성과 데이터 수량을 고려하여 데이터 수집 순서를 결정하고 데이터 분야가 고정된 데이터를 우선 수집, 확보 가능 수량이 적은 포털의 데이터를 우선 확보하여 데이터의 출처 다양성을 확보함
  • 불필요한 중복데이터 제거

데이터 편향 방지 및 윤리 준수

  • 학습모델이 인간의 비윤리 또는 편견을 학습하지 않고 사회적 윤리를 준수할 수
    있도록 비윤리적 내용, 편견, 편향된 데이터의 획득/수집은 지양

초반에 정의한 계획서 및 데이터 구축요건 일치

  • 처음 계획서에 정의한 데이터 구축 기준에 맞추어 데이터를 획득/수집하도록 모니터링 및 검사

사실적 획득/수집환경 구성

  • 원시데이터를 인위적인 환경이나 조건에서 획득해야 하는 경우, 실제 환경이나 상황적 특성을 최대한 반영한 획득/수집 환경 구성

데이터 동기화

  • 다중 속성의 데이터 소스 간 정교한 동기화를 위한 절차 마련

학습모델 구축목적의 적합성

  • 데이터 설계 담당자, 학습모델 개발자가 초기 수집한 원시데이터를 검토하고 모델 개발 목적에 부합하는지와 수집된 데이터의 제반 품질이 학습에 적합한지를 획득/수집의 초기에 검토 및 피드백 수행

품질관리 수행 절차

  1. 품질 검사 준비
  • 원시데이터, 원천데이터, 가공데이터 등의 검사대상을 선정하고 데이터 품질 수준에 대해 부합하는 상태인지를 판단하기 위한 품질검사 계획 수립
  1. 품질 검사 실시
  • 정의된 검사대상에 대해 준비성, 완전성, 유용성, 기준 적합성, 다양성, 유사성, 유해성, 합성데이터 유용성, 합성데이터 안전성, 구문 정확성, 의미 정확성, 유효성 등의 품질관리 지표에 대해 체크리스트와 같은 검사기법을 적용하여 품질검사실시
  1. 검사 결과 분석
  • 품질검사 결과를 바탕으로 주요 품질문제를 식별하고 문제의 근본적 원인을 파악하여 품질문제를 해결하기 위한 개선 기회를 도출하는 단계
  1. 품질 개선 수행
  • 품질문제 해결을 위해 개선계획 및 방안을 정의하고 우선순위를 결정하며, 결정된 우선순위에 따라 데이터 보정, 추가 작업 등 개선 영역별 품질개선 활동 수행
  1. 품질 통제
  • 개선 수행 결과의 확인 및 점검을 통해 품질문제 재발 방지 및 고품질 데이터를 유지하기 위한 품질관리 활동 수행 단계

0개의 댓글