[AI Competition Tutorial] Image Classification & EDA

임수정·2022년 2월 21일

AI Competition

목록 보기
2/10

EDA(Exploratory Data Analysis)

EDA란?

Exploratory Data Analysis = 탐색적 데이터 분석

  • 데이터를 이해하기 위한 노력

EDA에서 뭘 할지 모르겠어요..

  • 진짜로 여러분이 궁금한 건 뭔가요?

    • 실제로 어떻게 생겨 먹었나?
    • 주제와 연관성?
    • 궁금한 것?
    • 알고 싶은 것?
    • 주어진 데이터 타입의 특성?
    • 메타데이터의 분포?
  • Checking 방법

    • 일일이 손으로
    • Python
    • Excel
    • Etc..
  • 결국 중요한 것은 데이터를 잘 이해하기 위한 목적으로 EDA를 한다는 것을 잊지 않는 것입니다.

  • 데이터에 대한 자신의 궁금증을 정리하고, 그 궁금증을 풀어나가고 정리 과정을 EDA라고 보면 된다.

  • 그러니, 처음에는 정말 아무렇게나 해보세요...혼내지 않아요..ㅎㅎ

Image Classification

Image

  • 데이터 형식 중 하나
  • 시각적 인식을 표현한 인공물(artifact)
  • 이미지 구성 : (width, height, channel)
  • channel dtype : uint8 = unsigned int (0~255)

Model

  • Input + Model = Output
  • 데이터를 알아야 모델 형태를 설계할 수 있다.

Image Classification Model

  • Image + Classification Model = Class
  • 이미지를 어떻게 Input으로 넣어야 할까..?? -> 다음 내용에 정리!

Baseline

  • baseline 코드는 강의를 거듭할수록 점점 내용이 더해질 예정
  • 직접 코드를 작성해보고 예시 코드(혹은 자료)와 비교해보는 것을 추천

사진출처 : 부스트 캠프 AI Tech 3기 강의자료

Special Mission : EDA 해보기

EDA의 3가지 방법

  • input이 될 X에 대한 분석
  • target이 될 y에 대한 분석
  • X,y 관계를 확인할 수 있는 분석

위의 방법을 Image classification에 적용한다면..

  • input이 될 X에 대한 분석
    X는 Image가 됩니다. X에 대한 특성(feature)은 어떤 것이 있을까요??

    • 이미지 사이즈
    • 분석 대상이 되는 객체의 위치
    • RGB 채널별 통계 값

  • target이 될 y에 대한 분석
    y는 저희가 맞추고자 하는 값이며 y값에 대한 특성은 어떤 것이 있을까요??

    • y값에 독립적 분포 확인
      ex) y_1의 분포는?
    • y값 들간의 관계 분포 확인
      ex) y_1, y_2 정보를 섞은 분포는?

  • X,y 관계를 확인할 수 있는 분석
    X특성과 y의 특성 간의 분포 차이는 어떻게 있을까요??

    • 이미지 사이즈와 y 특성의 관계
    • RGB 통계값과 y 특성의 관계
    • 객체의 위치와 y 특성의 관계
    • 데이터의 노이즈 확인
      ex) y 값이 잘못 부여된것이 있을까??
profile
유쾌하게, 열정적으로, 진심을 다해

0개의 댓글