[Boostcamp AI Tech] 4주차 Day 1 학습 기록(P-stage)

bluegun·2021년 8월 23일
0

AI Tech 2기 활동

목록 보기
15/87

오늘부터 P-stage로 image classfication 대회가 시작되었다.

대회 목표

내 분류 모델에 들어간 모든 코드는 내가 이해해야 한다.
단순 복사 붙여넣기로 스코어 올리지 않고, 최대한 직접 타이핑하면서 흐름을 이해하고, 복붙 할 일이 있으면 나중에 반드시 커스터마이징 해서 내 것으로 만든다.

절대로 스코어에 연연하지 않고 내 모델 설계력과 코딩 실력을 기르는 것을 목표로 노력하자.

학습 내용

EDA

  • EDA는 주어진 데이터를 먼저 분석해보는 것.

  • 우리는 처음 데이터를 봤을 때 그게 어떤 건지 잘 알지 못하므로, 임의로 데이터가 어떨지 생각해보며 몇개인지, 어떤 label이 있는지, 필요하면 분포가 어떤지 등등 이것저것 볼 수 있다.

  • 중복 찾기, 데이터 형태 확인,

  • 목적은 데이터를 이해하는 것, 방법은 그때그때 다르며 자유임. 파이썬으로 해도되고 다른 식으로 해도 되고 너무 어렵게 생각해서 분석조차 하지말고 넘어가는 일은 없게하자.

대회 진행

  • Image classification 대회를 진행하게 되었다!

  • 서버 할당 후 notebook 활용(vscode는 주말에 설정해볼 생각)

  • EDA

    • train data에서 각 label 별 불균형이 있는 것 같다.
    • 확인되진 않았지만 labeling이 잘못 된 데이터가 있을 수 있다. 나중에 성능 검증하면서 확인해보자.
    • 이외 자세한 분포는 오늘 확인하지 않았다. 전체 프로세스를 먼저 구축하고자 하였다.
  • train data에 label이 없어, train data와 image data를 조합하여 train data에 labeling을 하는 데 성공하였다.

    • dataframe과 pandas를 처음 제대로 다뤄봐서, 굉장히 어색하고 어렵게 느껴졌지만, 결국 labeling에 성공해서 뿌듯하다.
    • 그래도 dataframe에서 원하는 정보를 추출하기는 아직 힘들어서 자주 EDA를 진행하면서 감각을 길러야겠다.
  • train data로 dataset을 정의하고, dataloader를 만들었다.

    • 과제 코드를 많이 참조하였지만, 어느정도 느낌을 알 것 같다.
    • Transform에 Albumentations같은 기법을 적용해보면 좋을 것 같다. 하지만 아직은 전체 프로세스 구축이 먼저고 배워야 할 것이 많아 추후에 조작해봐야겠다.
  • Model을 통한 학습을 구현하다 막혀서 중단하였다.

    • Model의 대략적인 구조는 이해하고 있지만, 세부적으로 코드를 짜는 게 상당히 복잡하게 느껴졌다.(내가 만든 Dataset과 맞춰야 하는 부분이 아직 감이 잘 안온다.)
    • Train을 만들고 나서 파일 형식 제출을 위해 model을 save하고 load하는 과정도 익혀놔야 한다.
  • Test Accuracy : 0

    • 제출을 못했으니깐...

피어 세션

  • 이번 한 주 동안 어떤 식으로 피어 세션을 진행할지 정하고, 대회에 적용할 모델이나 여러 기법에 대한 의논을 하였다.

  • 팀원 간 현재 수준이 차이가 있어 모두 같은 진도를 맞추는건 효율적이지 않다고 판단하여, 각자 페이스대로 진행하며 앞서가는 사람은 적용할만한 지식이나 견해를 공유하고, 뒤따라가는 사람은 필요 시 자신의 분류 모델을 발표하며 조언을 구하는 식으로 진행하기로 하였다.

  • 아직 팀원분들이 말씀하신 여러 기법들이 잘 와닿지 않으므로, 며칠 정도는 모델 구축에 익숙해지고 조사해 봐야겠다.

느낀 점

  • 막막했지만 예전처럼 아예 손도 못대는 수준은 아니어서 나름 뿌듯했고, 조금씩이지만 진도가 나가는 느낌이 들어 다행이다.

  • 강의 듣고 공부만 하는 것보다 아직은 좀 더 집중도 되고 직접 코드를 치면서 익숙해지는 느낌이 내 실력 향상에 도움이 되는 것 같다.

  • 대회가 끝날 때쯤엔 많은 개념을 정확히 이해하고 응용할 수 있고, 못하는 게 있겠지만 어떤 걸 못하는지 구체적으로 아는 사람이 됐으면 좋겠다.

  • 내일은 반드시 전체 프로세스를 구축해서 submission을 한번 해봤으면 좋겠다.

0개의 댓글