EDA(Exploratory Data Analysis)
EDA란?
Exploratory Data Analysis = 탐색적 데이터 분석
EDA에서 뭘 할지 모르겠어요..
-
진짜로 여러분이 궁금한 건 뭔가요?
- 실제로 어떻게 생겨 먹었나?
- 주제와 연관성?
- 궁금한 것?
- 알고 싶은 것?
- 주어진 데이터 타입의 특성?
- 메타데이터의 분포?
-
Checking 방법
- 일일이 손으로
- Python
- Excel
- Etc..
-
결국 중요한 것은 데이터를 잘 이해하기 위한 목적으로 EDA를 한다는 것을 잊지 않는 것입니다.
-
데이터에 대한 자신의 궁금증을 정리하고, 그 궁금증을 풀어나가고 정리 과정을 EDA라고 보면 된다.
-
그러니, 처음에는 정말 아무렇게나 해보세요...혼내지 않아요..ㅎㅎ
Image Classification
Image
- 데이터 형식 중 하나
- 시각적 인식을 표현한 인공물(artifact)
- 이미지 구성 : (width, height, channel)
- channel dtype : uint8 = unsigned int (0~255)

Model
- Input + Model = Output
- 데이터를 알아야 모델 형태를 설계할 수 있다.

Image Classification Model
- Image + Classification Model = Class
- 이미지를 어떻게 Input으로 넣어야 할까..?? -> 다음 내용에 정리!
Baseline
- baseline 코드는 강의를 거듭할수록 점점 내용이 더해질 예정
- 직접 코드를 작성해보고 예시 코드(혹은 자료)와 비교해보는 것을 추천

사진출처 : 부스트 캠프 AI Tech 3기 강의자료
Special Mission : EDA 해보기
EDA의 3가지 방법
- input이 될 X에 대한 분석
- target이 될 y에 대한 분석
- X,y 관계를 확인할 수 있는 분석
위의 방법을 Image classification에 적용한다면..
-
input이 될 X에 대한 분석
X는 Image가 됩니다. X에 대한 특성(feature)은 어떤 것이 있을까요??
- 이미지 사이즈
- 분석 대상이 되는 객체의 위치
- RGB 채널별 통계 값
-
target이 될 y에 대한 분석
y는 저희가 맞추고자 하는 값이며 y값에 대한 특성은 어떤 것이 있을까요??
- y값에 독립적 분포 확인
ex) y_1의 분포는?
- y값 들간의 관계 분포 확인
ex) y_1, y_2 정보를 섞은 분포는?
-
X,y 관계를 확인할 수 있는 분석
X특성과 y의 특성 간의 분포 차이는 어떻게 있을까요??
- 이미지 사이즈와 y 특성의 관계
- RGB 통계값과 y 특성의 관계
- 객체의 위치와 y 특성의 관계
- 데이터의 노이즈 확인
ex) y 값이 잘못 부여된것이 있을까??