시각 지능2

xhaktm·2023년 9월 19일

Data Analytics

목록 보기

2/10

데이터가 부족할때
: Image Data Augmentation

내가 가진 데이터를 증강시켜서 학습 데이터의 양을 늘리는 실습
실습 코드

헷갈리는 개념 정리

1. 스케일링

컬러 vs 흑백
이미지 색깔 차이에 따라서 스케일링 방법 다름
흑백은 그냥 min-max
컬러는 mean/std

2. 전처리 과정에서 원핫인코딩하는 경우 vs model에 spare_categorical_entropy 적용하는 경우

선택적으로 사용되는 두 가지 방법:
원핫인코딩 + categorical_crossentropy: 레이블을 원핫인코딩으로 변환한 후 categorical_crossentropy 손실 함수를 사용합니다.

정수 형태의 레이블 + sparse_categorical_crossentropy: 레이블을 정수 형태로 사용하고 sparse_categorical_crossentropy 손실 함수를 사용합니다.

어떤 방법을 선택할지는 데이터와 모델의 특성에 따라 다를 수 있습니다. 일반적으로는 sparse_categorical_crossentropy를 사용하는 경우가 더 간단하고 자연스럽습니다.

원핫인코딩 + categorical_crossentropy:

장점:

레이블 간의 상대적인 관계를 표현할 수 있습니다. 예를 들어, 클래스 0과 클래스 2 사이에는 클래스 1이 없다는 것을 모델에게 알려줄 수 있습니다.
각 클래스에 대한 확률 분포를 얻을 수 있습니다.
단점:

원핫인코딩은 추가적인 메모리를 요구하며, 클래스의 수가 많아질수록 특히 더 많은 메모리를 사용합니다.
모델의 출력 레이어에는 softmax 활성화 함수가 필요합니다.
정수 형태의 레이블 + sparse_categorical_crossentropy:

장점:

원핫인코딩을 사용하지 않기 때문에 메모리를 절약할 수 있습니다.
클래스의 수가 많아도 메모리 사용량이 적습니다.
단점:

클래스 간의 상대적인 순서나 거리를 나타내는 데 제한이 있습니다.

"Done is better than Perfect"