원문은 이 글에서 확인하실 수 있습니다.
AI와 Machine Learning 분야를 높이 쌓아올린 몇백개의 논문 중 다수는 Public Dataset의 일부를 사용하여 실험하고 결론을 냈다. 그리고 Image Classification부터 Audio Classification까지 (사실 이 밖에도 훨씬 많이) Labeled data는 이런 급격한 성장의 핵심이었다. 그 이유는 사람이 자라며 많은 것들을 배우는 과정을 떠올리면 이해하기 쉽다. 다양하고 많은 경험을 함으로써 어떤 대상에 대한 일반화 된 패턴을 학습하는 것과 똑같기 때문이다 (그래서 인공지능 이 아닐까).
하지만 Labeled data란 결국 사람이 만드는 것이기 때문에 에러가 존재한다. 이 부분은 에러가 테스트셋에도 존재할 때 특히 문제가 되는데, 그 이유는 결국 어떤 연구 결과를 검증하는데 쓰이는 자료가 잘못됐다면 결과 자체를 부정당할 수도 있기 때문이다. 그리고 결국 우리의 실생활에 적용될 인공지능이 오동작할 여지를 남겨두는 셈이기도 하다.
최근 MIT의 연구자들이 논문과 페이지를 통해 유명한 Public Datasets가 Labeling Error가 없다고(immune to labeling errors) 하기 어렵다고 발표한 바 있다. 분석에서는 Image, text 및 audio을 포함한 10개의 유명한 데이터셋에 대해 Labeling Error가 얼마나 되는지 조사했고, 평균적으로 3.4%의 errors가 발생했다고 한다. 찾은 error의 수는 데이터셋의 사이즈에 따라 다르지만 적게는 ImageNet에서 발생한 2,900개 가량, 많게는 QuickDraw에서 찾은 500만개가 넘는 error가 있었다.
저자들은 이러한 잘못된 labels(mislabelings)가 benchmark 결과의 불안정하게 만들 수 있다고 한다. 예를 들어, 만약 데이터셋들이 labels를 맞게 고쳐 배포한다고 하면 큰 사이즈의 모델들이 그 사이즈만 줄인 모델보다 성능이 더 안좋을 것이라는게 그 이유 중 하나이다. 왜냐하면 큰 사이즈의 모델이 소수의 mislabeled 데이터에 영향을 덜 받을 수 있기 때문이다. (똑같이 다리 하나 잘린다고 생각할 때, 인간에게 더 치명적일까? 문어에게 더 치명적일까?)
(하지만 작은 사이즈의 모델의 성능이 더 높게 나온다고 하는 부분에는 동의하기 어렵다)
이 저자들이 평가를 위한 데이터셋을 고른 기준은 아래와 같다.
- 20년이 안된 최근 데이터셋
- 가장 많이 인용되고 쓰인 데이터셋
- CV, NLP, Audio를 포함한 다양한 데이터셋
그렇게 선정된 10개의 데이터셋은
Image datasets (6): MNIST, CIFAR-10, CIFAR-100, Caltech-256, and ImageNet
Text datasets (3): 20news, IMDB, and Amazon Reviews
Audio dataset (1): AudioSet