- 데이터 전처리의 개념에 대해서 설명한다
- 컴퍼티션의 경우 어느 정도 정제된 데이터가 주어지지만, 앞으로 우리가 만나게 될 데이터는 cleaning 되어 있지 않는 경우가 많기 때문에 사전에 여러가지 작업들이 필요하다
- 이미지 데이터는 비교적 전처리할 거리가 그렇게 많지는 않지만 정형데이터나 텍스트 데이터의 경우는 상상을 초월하는 전처리를 경험한다
- 그리고, Generalization(일반화) 관점에서 생각해 볼 수 있는 몇 가지 Skill를 다룬다
- 이러한 과정에서 의사결정을 하는데에는 앞서 말한 것 처럼 문제를 어떻게 정의했느냐가 매우 중요한 요소로 활용될 수 있다
Image에 적용할 수 있는 다양한 함수들
종류는 많고, 사용은 간편하다!
- Vanilla 데이터를 가지고 Dataset을 구성한 다음 모델에 빠르고, 효율적으로 Feeding 하기 위해 알아야 할 것들에 대해서 다룬다
- Data Feeding이라고 말하는 것의 개념과, 실제로 이것을 제대로 하지 않았을 때 어떤 일들이 일어날 수 있는지 알아보자
- 그리고, 파이토치에서 torch.utils.data에 있는 Dataset, DataLoader에 대한 설명과, 그 차이를 다뤄보자
파이토치 공식 Dataset Docs : https://pytorch.org/docs/stable/data.html
Dataset, DataLoader Tutorials : https://pytorch.org/tutorials/beginner/data_loading_tutorial.html
Data Augmentation 에 도움을 줄 수 있는 다양한 라이브러리가 존재해요. 일례로 Albumentation과 imgaug가 존재해요.각각의 라이브러리는 작동 방식도 다르고 제공하는 기능들도 다 다르기때문에 문서를 살펴보고 자기에게 적합한 기능을 고르는게 중요합니다. 물론 torchvision의 전처리 함수도 훌륭한 기능을 제공합니다.
catalyst라는 라이브러리는 파이토치 위에서 다양한 기능을 제공하는 라이브러리인데, 기본 데이터셋 기능을 넘어서 balanced batch sampler와 같은 API를 제공하는 라이브러리에요. 섬세한 학습을 위해 이러한 라이브러리를 살펴보는 것도 도움이 될수 있을거에요.
이 깃헙 레포지토리는 다양한 커스텀 데이터셋 예제를 확인할 수 있어요. Task에 맞는 예시를 찾는다면, 큰 도움이 될거에요!