MNIST 데이터셋과 변형 데이터셋 – Fashion-MNIST, Kuzushiji-MNIST, Binarized-MNIST

AISchool·2022년 2월 26일
0

딥러닝을 공부하게 되면 꼭 마주치게 되는 데이터셋이 있습니다.
딥러닝을 처음 학습하고 기초 예제코드를 살펴보면 항상 MNIST 데이터셋이 등장합니다.

MNIST 데이터셋

MNIST(Modified National Institute of Standards and Technology database) 데이터셋은 아래와 같이 0부터 9까지의 손글씨 데이터를 모아놓은 데이터셋입니다.

MNIST 데이터셋 1개의 샘플을 놓고 보면 아래와 같이 28×28 크기의 이미지의 가운데 0~9 사이의 숫자 하나가 적혀있는 이미지입니다.

MNIST 데이터셋은 총 60,000개의 Training 데이터와 10,000개의 Test 데이터로 구성되어 있고, 사람이 각각의 이미지에 대한 정답 레이블 0~9를 정제해놓아서 바로 지도 학습(Supervised Learning) 용도로 사용할 수 있습니다.

MNIST 데이터셋의 의의

MNIST 데이터셋은 딥러닝을 처음 학습할때 기초 예제 데이터셋으로 광범위하게 활용됩니다.
그 이유는 다음과 같습니다.

  1. 상대적으로 작은 이미지 크기와 데이터양으로 적은 컴퓨팅 리소스로도 빠르게 학습가능
  2. 딥러닝의 주요 응용분야인 인식 문제에 대한 직관을 제공

일반적으로 사람이 MNIST 이미지를 보고 가운데 적힌 숫자가 무엇인지 맞추는 것은 매우 쉽습니다.

그러나 이런 간단한 문제도 딥러닝을 제외한 다른 컴퓨터 알고리즘으로 해결하려고하면 매우 높은 난이도의 문제가 됩니다. 왜냐하면 사람마다 필기 스타일이 모두 다르기 때문에 각각의 미세한 차이를 모두 대응할 수 있는 정형화된 알고리즘을 만들기 힘들기 때문입니다.
하지만 최근 유행하는 딥러닝 알고리즘은 정형화된 알고리즘을 사람이 고안하지 않고, 데이터를 모은 뒤 딥러닝 알고리즘이 각각의 미세한 차이를 데이터로부터 구분하도록 학습시킵니다.
따라서 이런 인식 문제에 대해서는 딥러닝 알고리즘이 기존의 알고리즘 대비 훨씬 높은 정확도를 보여주게 됩니다.

MNIST 데이터셋의 변형 – Fashion-MNIST, Kuzushiji-MNIST, Binarized-MNIST

기본 MNIST 데이터셋 외에도 예제를 위한 다양한 변형 MNIST 데이터셋이 존재합니다.

Fashion-MNIST 데이터셋은 아래와 같이 28×28 크기의 10개의 패션 아이템들을 모아놓은 데이터셋입니다.

Kuzushiji-MNIST 데이터셋은 일본어 문자에 대한 MNIST 데이터셋 형태의 데이터셋입니다.

Binarized-MNIST 데이터셋은 MNIST 데이터셋의 픽셀 밝기값(Pixel Intensity)를 0과 1로 이진화(Binarization)한 데이터셋입니다.

이외에도 목적에 따라 변형한 다양한 MNIST 변형 데이터셋[3]이 존재합니다.

References

[1] https://ko.wikipedia.org/wiki/MNIST_%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B2%A0%EC%9D%B4%EC%8A%A4#cite_note-6
[2] http://yann.lecun.com/exdb/mnist/
[3] https://paperswithcode.com/datasets?q=mnist&v=lst&o=match

profile
인공지능 교육업체 AISchool입니다. ( http://aischool.ai/ )

0개의 댓글