이미지 데이터의 성분
해상도 (Resolution)
이미지의 가로 세로 픽셀 개수로 표기 (ex) 1920 x 1080)
픽셀 (pixel)
이미지의 가장 작은 단위
하나의 픽셀은 채널 수만큼 색상 성분을 가진다.
채널 (channel)
색상을 나타내는 성분 수에 따라 결정됨
일반적으로 RGB 3개의 채널을 사용하지만 경우에 따라 다름
이미지 데이터를 다룰 때 왜 메모리가 부족할까?
이미지를 tensor화하고 normalize하는 과정에서 dtype이 uint8 (1 byte) → float32 (4 byte)가 된다.
EDA
데이터를 보면서 궁금했던 내용
데이터의 생김새, 특징
데이터의 생성 배경에 관련된 자신의 추측을 검증
내가 해결해야 하는 목표와의 관련성
을 분석하는 것이다.
이미지와 관련해서는
이미지의 기본 정보 (차원, 채널, 이미지 사이즈, 파일 포맷)
지도 학습의 케이스에서 label이 존재하는 경우 클래스의 분포, 불균형 여부
이미지 샘플 확인 (이미지 하나 하나 확인하며 insight를 얻을 수도!)
중복된 이미지 제거 (해시 함수를 활용하면 똑같은 이미지를 쉽게 찾을 수 있다.)