NIA에서 제안하는 생성형AI 데이터 품질관리 가이드에서 생성형AI 데이터 품질 관리 확인할 수 있는 좋은 정보가 있어 정리하였습니다.
신뢰할 수 있는 AI 시스템의 특징
유효성 및 신뢰성
- AI 시스템이 의도한 요구사항을 실패없이 수행하는지에 대한 지속적인 테스트와
모니터링을 통해 정확성, 강건성을 확인하여 유효성과 신뢰성 확보
안전성
- AI 시스템은 사람의 생명, 건강, 재산, 또는 환경에 위험이 없도록 안전 위협의 종류, 심각도에 따른 리스크 관리가 필요
보안 및 복원성
- 의도된 공격을 피하고, 방어하며 복구하는 보안능력과 예상하지 못한 사건이 발생한
이후 정상 기능으로 돌아갈 수 있는 복원성 필요
책임과 투명성
- 투명성은 AI 시스템과 결과물 정보를 해당 시스템 사용자가 적절한 수준으로
접근하여 이용하는 것으로 이때 책임성은 투명성을 전제로 확보 가능
설명 및 해석 가능성
- AI 시스템이 작동하는 메커니즘 설명과 설계 목적에 따른 결과물에 대한 해석이
가능하도록 도움이 되는 정보 제시 가능
개인정보보호 강화
- AI 시스템 설계, 개발, 배포 시 익명성, 기밀성, 통제 등과 같은 개인정보보호 기준
제시 필요
공정성-유해편견 관리
- 시스템적 편향, 통계적 편향, 인지적 편향 등 3가지 범주의 편향성 관리와 통제 필요
데이터 구축 과정
- 합성 데이터 생성에 필요한 실제 데이터를 수집
- 선별된 데이터에 대한 개인 정보 비식별화, 이미지 사이즈 표준화 등 전처리 절차를 수행하여 시드 데이터 생성
- 합성 데이터를 생성
데이터 획득/ 수집 단계 품질 확보를 위한 고려 사항
분류 다양성
- 학습목적에 부합하도록 실제 세상의 데이터와 유사한 특성을 가진 데이터를 확보해야 함
- 사물, 사람, 장소, 시간, 환경, 언어 특성 등 학습에 유용한 모든 특성 정보를 포함할 수 있도록 고려
- 사물, 사람, 장소, 시간, 환경, 언어 특성 등의 특성 정보가 학습에 유용한 범위에서 다양하게 수집
- 데이터가 유사한 변동성(분야별 데이터 변동성)을 고려하여 원시데이터의 품질을 확보 (예시 : 자율주행 데이터, 실도로 위험 상황 데이터 등)
신뢰성
- 데이터는 반드시 객관성 확보를 위한 신뢰할 수 있는 출처(사람, 기관, 기업)로부터 수집해야 함
충분성
- 데이터에 포함된 카테고리(분류체계)와 인스턴스(분류체계별 특성을 갖고 있는 데이터) 등 특성 정보는 학습에 유용한 수량이어야 함
균일성
- 분류/탐지/인식/이해/예측 등의 카테고리(분류체계)별 인스턴스(분류체계별 특성을 갖고 있는 데이터) 수량의 균일성과 적정 비율을 확보해야 함
사실성
- 원시데이터를 인위적인 환경과 조건하에 수집해야 하는 경우, 반드시 실제 환경과 상황 특성을
반영해야 함
공평성
- 원시데이터는 지역, 사회 및 인종적 편견 등 활용 의도와 무관한 편향적인 특성이 제거되고, 윤리적으로 공평해야 함
원시데이터 데이터 생성시 주의사항
- 원시데이터를 수집하거나 직접 원시데이터를 생성하는 경우, 품질특성을 고려해서 원시데이터의 품질을 확보해야 함
법・제도 준수
- 원시데이터 획득 시 관련 법・제도적 규정 등을 반드시 준수하여야 함
- 개인정보 및 사생활 보호가 필요한 항목 획득 시, 개인정보보호법 등에 따라 적절한 법적, 기술적 절차를 거친 데이터를 활용하며, 그렇지 않은 데이터는 정제 과정에서 처리될 수 있도록 함
- 의료 데이터의 경우는 IRB(의학연구윤리심의위원회)와 데이터 공개에 대한 해당 기관의 동의(DRB)를 사전에 획득 필요
- 지적 재산권 이슈가 있는 경우 반드시 해결방안을 마련하여 획득해야 함
데이터 다양성 확보
- 학습모델이 현실을 잘 반영하고 본래의 구축목적을 달성할 수 있도록, 획득하는 데이터가 일부 범주에만 치우치지 않고 가능한 다양한 시간, 공간, 집단 수준 등이 포함할 수 있도록 함
- 데이터 수집은 데이터 분야 특이성과 데이터 수량을 고려하여 데이터 수집 순서를 결정하고 데이터 분야가 고정된 데이터를 우선 수집, 확보 가능 수량이 적은 포털의 데이터를 우선 확보하여 데이터의 출처 다양성을 확보함
- 불필요한 중복데이터 제거
데이터 편향 방지 및 윤리 준수
- 학습모델이 인간의 비윤리 또는 편견을 학습하지 않고 사회적 윤리를 준수할 수
있도록 비윤리적 내용, 편견, 편향된 데이터의 획득/수집은 지양
초반에 정의한 계획서 및 데이터 구축요건 일치
- 처음 계획서에 정의한 데이터 구축 기준에 맞추어 데이터를 획득/수집하도록 모니터링 및 검사
사실적 획득/수집환경 구성
- 원시데이터를 인위적인 환경이나 조건에서 획득해야 하는 경우, 실제 환경이나 상황적 특성을 최대한 반영한 획득/수집 환경 구성
데이터 동기화
- 다중 속성의 데이터 소스 간 정교한 동기화를 위한 절차 마련
학습모델 구축목적의 적합성
- 데이터 설계 담당자, 학습모델 개발자가 초기 수집한 원시데이터를 검토하고 모델 개발 목적에 부합하는지와 수집된 데이터의 제반 품질이 학습에 적합한지를 획득/수집의 초기에 검토 및 피드백 수행
품질관리 수행 절차
- 품질 검사 준비
- 원시데이터, 원천데이터, 가공데이터 등의 검사대상을 선정하고 데이터 품질 수준에 대해 부합하는 상태인지를 판단하기 위한 품질검사 계획 수립
- 품질 검사 실시
- 정의된 검사대상에 대해 준비성, 완전성, 유용성, 기준 적합성, 다양성, 유사성, 유해성, 합성데이터 유용성, 합성데이터 안전성, 구문 정확성, 의미 정확성, 유효성 등의 품질관리 지표에 대해 체크리스트와 같은 검사기법을 적용하여 품질검사실시
- 검사 결과 분석
- 품질검사 결과를 바탕으로 주요 품질문제를 식별하고 문제의 근본적 원인을 파악하여 품질문제를 해결하기 위한 개선 기회를 도출하는 단계
- 품질 개선 수행
- 품질문제 해결을 위해 개선계획 및 방안을 정의하고 우선순위를 결정하며, 결정된 우선순위에 따라 데이터 보정, 추가 작업 등 개선 영역별 품질개선 활동 수행
- 품질 통제
- 개선 수행 결과의 확인 및 점검을 통해 품질문제 재발 방지 및 고품질 데이터를 유지하기 위한 품질관리 활동 수행 단계