0. 개요

0.1. 대회 개요

1570장의 데이터를 가공해서 3140장의 이미지를 분류하는 대회다.

0.2. 역할과 소감

  • 작성 내용(필수):
    • 나는 내 학습목표를 달성하기 위해 무엇을 어떻게 했는가?
      강의 영상을 빠르게 학습하고 캐글에서 관련 자료를 찾아보고 학습했다.
    • 전과 비교해서, 내가 새롭게 시도한 변화는 무엇이고, 어떤 효과가 있었는가? (2번째 경진대회부터 해당)
      전반적인 데이터 처리와 모델 학습 진행에 있어서 좀더 체계적으로 진행되고 다양한 데이터 가공과 학습을 시도해볼수 있었다. 코딩에서도 좀더 익숙해졌고 GPT를 활용해서 좀더 빠르게 코딩을 진행할수 있어서 여러가지 시도를 더 빠르게 해볼수 있었다.
    • 마주한 한계는 무엇이며, 아쉬웠던 점은 무엇인가?
      실제적인 분류를 위한 기술들이 부족했다. 이를 빠르게 학습하고 찾아보고 전문적인 스킬과 방법을 아는 것이 중요하다고 생각한다.
      모델을 더 가공할수 있는 방법들에 대해서 아직 미흡하다.
    • 한계/교훈을 바탕으로 다음 경진대회에서 시도해보고 싶은 점은 무엇인가?
      빠르게 학습하고 학습한 내용들을 구체화하고, 기록하면서 다양한 것들을 시도하고 체계적으로 관리해서 향상시키고 싶다.
  • 작성 내용(선택/참고):
    • 나는 어떤 방식으로 모델을 개선했는가?
      데이터를 전처리하는 방식으로 진행했다. 불필요한 데이터를 제거하여 학습시간을 줄이고, 이미지 증강을 더 많이 해서 학습효과를 높였다.
    • 내가 해본 시도 중 어떠한 실패를 경험했는가? 실패의 과정에서 어떠한 교훈을 얻었는가?
      이미지를 전체를 다 변형시키고 증강시키는 것은 시간도 오래걸리고 불필요한 작업이 될수도 있다. 일부 셈플링을 통해서 진행하면 더 빠르고 효과적이었을 것 같다. 다음에 진행되는 대회에서는 데이터 샘플링을 최대한 활용하고 싶다.
    • 협업 과정에서 잘된 점/ 아쉬웠던 점은 어떤 점이 있는가?
      협업과정에서 일의 분담이 여전히 어렵다. 팀장이지만 전체를 잘 이해하지 못하는 측면이 커서 업무를 분담해서 맡기기보다 자발적인 측면으로 진행되었고 이에 따라서 진행에 속도나 향상이 더디게 작용했던거 같다.

1. 데이터 이해와 분석

이미지 데이터를 실제로 확인하는 것이 매우 중요했다.

TRAIN 용 데이터가 주어졌지만 나중에 실사 확인을 했는데 오염이 심한 것이 많았다. 이런 부분들을 더 클린하게 만들어서 학습에 사용해야 했다. 자동차의 크기같은 경우엔 이미지를 확대 하다보니 전체에 채워져서 다시 이미지를 만들어야 하기도 했다. 대략적인 크기가 얼마나 되어야 하는지 알아야 한다.

TEST 데이터 같은 경우에도 어떻게 오염되고 어떤 노이즈가 있는지는 실제로 눈으로 확인해야 알수 있다. 심지어는 눈으로 보아도 구분이 어려운 데이터도 존재했다. 여러 난감한 데이터가 있다는 것은 대회가 아니라 실전에서는 더욱 심화된다는 것도 알아야 한다.

2. 데이터 전처리

2.1. 데이터의 분포

이미지 사이즈가 얼마나 되는지 확인 하는 것도 중요하다. 이미지의 크기는 이미지 왜곡과 굉장히 연관이 크다고 볼수 있다. 그렇기에 이미지 변환에 전처리를 위해서도 이미지 크기를 잘 확인해두어야 한다.

2.2. 데이터의 전처리

TRAIN 데이터 전처리를 잘 하기위해서 이미지를 어떻게 변형시켜서 TEST과 유사하게 만들수 있는지 확인해야 한다.

2.3. 데이터 증강

이미지 분류를 잘 하려면 다양한 형태로 데이터를 증강시켜야 한다.

2.4. 데이터 전처리

노이즈가 있는 학습 데이터는 모델 학습을 효과적으로 만드는데 좋지 않게 작용한다.

2.5. 회전에 대한 전처리

이미지 내에 선을 찾고 직사각형을 찾아서 회전하여 처리해보기도 한다.

3. 모델 학습

4. 평가 및 실사확인

데이터를 평가하고 나온 결과에 대해서 실제로 어떤 이미지가 잘 처리되지 못했는지 확인하는 작업이 매우 중요하다.
이를 통해서 데이터와 모델을 더 가동하고 변형하는데 도움을 받을 수 있다. 실제로 분류가 어려운 이미지가 어떤 특이점이 있는지 눈으로 확인하는게 더 빠르다.
이렇게 확인된 내용으로 가공해서 진행할수록 더 좋은 점수로 나오게 되었다.

profile
일단 시작하고 완성할거야

0개의 댓글