Dataset 선정

lukas·2025년 4월 21일

MVTec AD (MVTec Anomaly Detection Dataset)

  • https://www.mvtec.com/company/research/datasets/mvtec-ad
  • 제조업 제품의 이상(스크래치, 구멍, 오염 등)을 탐지하는 데이터셋
  • 카테고리: 15종류 (금속, 천, 종이, 캡슐 등)
  • 형식: 정상 / 비정상 이미지 + segmentation 마스크 (비정상 영역)
  • 용도: 이미지 분류, 이상 감지, 세그멘테이션

Download

  • 필요 정보 작성 후 상업적 이용을 하지 않는 다는 내용을 숙지했다는 체크를 해줍니다.
  • SUBMIT 버튼을 눌러서 다운로드 페이지로 이동합니다.

  • Download 버튼을 오른쪽 마우스를 눌러서 Copy Link Address를 눌러줍니다.
wget https://www.mydrive.ch/shares/38536/3830184030e49fe74747669442f0f282/download/420938113-1629952094/mvtec_anomaly_detection.tar.xz

  • 자신의 서버에 wget을 이용해 다운로드 받아줍니다.
  • 버튼을 눌러서 Browser로 다운로드 받지 않는 이유는 5GB 이상의 데이터이기 때문에 다운로드에 오랜 시간이 필요하고 데이터를 서버로 옮기는 비효율적 행위를 하지 않기 위함입니다.
    • tmux, nohup, & command 등의 background 툴을 이용해 다운로드 받는 것도 좋은 방법입니다. 정상적인 퇴근을 위하서라면 말이죠 🤣
mkdir mvtec
tar -xvf mvtec_anomaly_detection.tar.xz -C mvtec
  • mvtec directory를 만들어 해당 경로에 압축을 풀어줍니다.
-f : 대상 파일 지정(기본옵션)
-c : 기존파일 있으면 덮어씀
-C : 압축풀때 경로지정
-v : 압축되는 파일 정보 화면에 출력
-x : 압축해제
-z tar.gz로 압축
  • tar 명령어의 option들의 의미입니다.

Directory Structure

.
├── ground_truth
│   ├── broken_large
│   ├── broken_small
│   └── contamination
├── test
│   ├── broken_large
│   ├── broken_small
│   ├── contamination
│   └── good
└── train
    └── good
  • Directory의 구조는 이렇게 되어있습니다.
  • 결함의 내용은 크게/작게 부서진 곳, 오염 으로 되어있네요.
  • Train은 모두 good(정상) 이미지 입니다.
  • Test에 Defect에 대한 Segmentation이 있습니다.
  • 이상 탐지를 위한 데이터셋이라 불가피하게 MVTec AD 에서는 Test 데이터를 Segmentation 학습 진행하겠습니다.

Data Check

profile
AI SoftWare 활용기를 기록합니다

0개의 댓글