인공지능에서의 데이터 평가
현실 세계
에서 발생한 사건이나 현상을 표현원시 데이터(raw data)
와 가공된 데이터(processed data)
로 구분 아날로그
픽셀값을 담은 raw image data
디지털
가공되지 않은 정보
데이터 품질 평가: 데이터의 정확성, 완전성, 일관성, 신뢰성을 평가하여 오류나 이상치를 식별하고 처리
레이블링 및 주석 평가: 데이터 포인트의 레이블 또는 주석의 정확성과 일관성을 확인하여 일치도를 평가
데이터 분포 분석: 데이터의 분포를 분석하여 편향, 불균형, 무작위성을 확인하고 클래스 불균형 문제를 처리
모델 성능 평가: 정량적 평가 지표를 활용하여 모델의 성능을 측정
일반화 능력 검증: 모델의 일반화 능력 평가를 통해 새로운 데이터에 대한 성능 예측을 확인하고 과적합 및 과소적합을 감지
유사성으로만 분류된 사진
과도한 데이터 전처리
예시: 특징 선택, 차원 축소, 또는 데이터 필터링을 과도하게 적용하여 유용한 정보를 손실시키는 경우
결과: 모델은 데이터의 중요한 특징을 잃어 정확한 예측을 할 수 없음
단일 평가 메트릭 의존
예시: 정확도만을 사용하여 모델 평가를 수행하고 다른 성능 메트릭을 고려하지 않는 경우
결과: 모델의 성능을 정확하게 이해하지 못하고 문제를 놓치는 가능성이 있음
과소 평가
예시: 모델의 복잡성을 축소하여 모든 기능을 단순하게 만들어 버리는 경우
결과: 모델은 데이터의 다양성과 복잡성을 이해하지 못하고 과소적합됨