오늘부터 P-stage로 image classfication 대회가 시작되었다.
대회 목표
내 분류 모델에 들어간 모든 코드는 내가 이해해야 한다.
단순 복사 붙여넣기로 스코어 올리지 않고, 최대한 직접 타이핑하면서 흐름을 이해하고, 복붙 할 일이 있으면 나중에 반드시 커스터마이징 해서 내 것으로 만든다.절대로 스코어에 연연하지 않고 내 모델 설계력과 코딩 실력을 기르는 것을 목표로 노력하자.
EDA는 주어진 데이터를 먼저 분석해보는 것.
우리는 처음 데이터를 봤을 때 그게 어떤 건지 잘 알지 못하므로, 임의로 데이터가 어떨지 생각해보며 몇개인지, 어떤 label이 있는지, 필요하면 분포가 어떤지 등등 이것저것 볼 수 있다.
중복 찾기, 데이터 형태 확인,
목적은 데이터를 이해하는 것, 방법은 그때그때 다르며 자유임. 파이썬으로 해도되고 다른 식으로 해도 되고 너무 어렵게 생각해서 분석조차 하지말고 넘어가는 일은 없게하자.
Image classification 대회를 진행하게 되었다!
서버 할당 후 notebook 활용(vscode는 주말에 설정해볼 생각)
EDA
train data에 label이 없어, train data와 image data를 조합하여 train data에 labeling을 하는 데 성공하였다.
train data로 dataset을 정의하고, dataloader를 만들었다.
Model을 통한 학습을 구현하다 막혀서 중단하였다.
Test Accuracy : 0
이번 한 주 동안 어떤 식으로 피어 세션을 진행할지 정하고, 대회에 적용할 모델이나 여러 기법에 대한 의논을 하였다.
팀원 간 현재 수준이 차이가 있어 모두 같은 진도를 맞추는건 효율적이지 않다고 판단하여, 각자 페이스대로 진행하며 앞서가는 사람은 적용할만한 지식이나 견해를 공유하고, 뒤따라가는 사람은 필요 시 자신의 분류 모델을 발표하며 조언을 구하는 식으로 진행하기로 하였다.
아직 팀원분들이 말씀하신 여러 기법들이 잘 와닿지 않으므로, 며칠 정도는 모델 구축에 익숙해지고 조사해 봐야겠다.
막막했지만 예전처럼 아예 손도 못대는 수준은 아니어서 나름 뿌듯했고, 조금씩이지만 진도가 나가는 느낌이 들어 다행이다.
강의 듣고 공부만 하는 것보다 아직은 좀 더 집중도 되고 직접 코드를 치면서 익숙해지는 느낌이 내 실력 향상에 도움이 되는 것 같다.
대회가 끝날 때쯤엔 많은 개념을 정확히 이해하고 응용할 수 있고, 못하는 게 있겠지만 어떤 걸 못하는지 구체적으로 아는 사람이 됐으면 좋겠다.
내일은 반드시 전체 프로세스를 구축해서 submission을 한번 해봤으면 좋겠다.