디스크에 있는 데이터를 모델에 그냥 쓰기에는 적합하지 않은 경우가 많기 때문에 모델을 위한 Dataset으로 변환시켜줘야 한다.
데이터는 여러가지가 있는데 모델에 적합한 데이터셋을 만드는 과정은 Deep Learning에 가장 기본이면서 중요한 과정이다.
Data science에서 가장 많은 시간이 소요되고, 힘든일은 바로 데이터 전처리이다.
이유는 Data에는 정말 많은 종류가 있고 정리되어있지 않은 경우가 많기 때문에 모델에 적합한 데이터를 만들기에 많은 노력과 시간이 필요하기 때문이다.
-Resize
큰 사이즈는 계산해야할 양이 많아서 학습이 오래걸린다. 떄문에 작업의 효율화를 위해서 적당한 Reszie가 필요하다.
데이터의 많은 부분까지 모델이 커버하게 되면 high variance라고 한다.
가지고 있는 데이터를 충분히 학습하지 못했을 때 나오는 결과
궁극적인 이유는 학습이 제대로 되었는지 안되었는지 확인하기 위해서 Train에 사용되지 않는 Data를 validation을 나누는 작업이 필요하다.
실제 모델이 사용되는 경우에서는 Train 데이터에 있지 않은 노이즈가 껴있는 경우가 많이 있다. 이럴때를 대비하여 모델을 로버스트하게 구축하기 위해서 데이터 어그멘테이션을 진행한다.