Computer Vision 경진대회(12조)

경진대회 정보 및 모델링 과정

이번 경진대회는 컴퓨터 비전 도메인에서 가장 중요한 태스크 중 하나인 이미지 분류 대회로, 문서 타입 분류를 목표로 하였습니다. 이 대회에서는 17개 종류의 문서를 분류하는 모델을 구축해야 했으며, 총 1570장의 학습 이미지와 3140장의 평가 이미지를 사용했습니다. 이 과정에서 사용된 모델은 EfficientNet, SWIN, ConvNeXt V2 등이었으며, 다양한 데이터 증강 기법과 하이퍼파라미터 튜닝이 적용되었습니다.

EfficientNet은 Compound Scaling을 통해 모델의 성능과 효율성을 최적화한 모델이고, SWIN 모델은 윈도우 기반의 self-attention을 통해 계산 복잡도를 줄이면서도 성능을 향상시킨 모델. ConvNeXt V2는 CNN과 Transformer의 강점을 결합한 모델입니다. 이러한 모델링 과정과 기술 선택은 대회의 성과를 높이는 데 기여했습니다.

나는 내 학습목표를 달성하기 위해 무엇을 어떻게 했는가?

지난 2주 동안의 학습 목표는 이미지 분류 경진대회에서 최고의 성능을 달성하는 것이었습니다. 이를 위해 먼저 기존의 경진대회에서 경험했던 시간 부족 문제를 보완하고자 초기부터 빠르게 접근했습니다. 베이스라인 코드를 기준으로 전체적인 맥락을 파악하고, Train/Test 데이터셋의 특징을 철저히 분석했습니다. 특히 이번 경진대회는 문서 타입 분류를 목표로 한 이미지 분류 대회였기 때문에, 문서 이미지를 어떻게 효율적으로 분류할지에 대한 깊이 있는 고민과 연구가 필요했습니다.

다양한 모델을 비교하여 계산 효율적인 모델을 선택하는 과정에서, 하이퍼파라미터 튜닝을 통해 최적의 모델을 찾는 데 집중했습니다. 이 과정에서 WANDB Sweep이나 Optuna와 같은 도구를 적극적으로 활용해 최적화 작업을 진행했습니다. 이러한 노력은 모델의 예측 정확도를 높이는 데 기여했습니다. 특히 EfficientNet, SWIN, ConvNeXt V2와 같은 최신 딥러닝 모델들을 활용해보면서, 각각의 모델이 가진 강점을 최대한 활용할 수 있는 방안을 모색했습니다.

전과 비교해서, 내가 새롭게 시도한 변화는 무엇이고, 어떤 효과가 있었는가?

이번 경진대회에서는 기술적인 변화뿐만 아니라 전략적인 변화도 시도했습니다. 먼저, 데이터 증강(Data Augmentation) 기법을 처음 도입해 학습 데이터의 다양성을 높였습니다. 이를 통해 모델의 일반화 능력을 강화할 수 있었고, 그 결과 모델의 성능이 전보다 안정적으로 유지되었으며 예측의 일관성도 크게 개선되었습니다.

기술적으로는 Augraphy를 이용한 다양한 데이터 증강 기법이 팀 안에서 활용되었습니다. 윤곽선 감지, 이미지에 낙서 적용, 종이 표면의 그림자 효과 등 다양한 기법을 통해 현실적인 문서 상태를 재현하려 했으며 또한, SWIN 모델을 사용해 윈도우 기반의 self-attention을 수행함으로써 계산 복잡도를 줄이고 성능을 극대화했습니다.

이 외에도, 처음으로 문서 이미지를 다루는 모델링 기법을 적극적으로 탐색하며 ConvNeXt V2를 포함한 여러 모델의 성능을 비교하고 분석했습니다. 이 모든 변화는 모델의 성능을 한 단계 끌어올리는 데 중요한 역할을 했습니다.

마주한 한계는 무엇이며, 아쉬웠던 점은 무엇인가?

이번 경진대회에서 가장 큰 한계는 시간 관리의 어려움이었습니다. 새로운 기술을 학습하고 이를 실제로 적용하는 과정에서 예상보다 많은 시간이 소요되었습니다. 특히, 하이퍼파라미터 튜닝과 같은 세밀한 작업에서는 시간의 압박이 크게 느껴졌습니다. 그로 인해, 몇 가지 실험적인 시도를 충분히 테스트하지 못한 점이 아쉬웠습니다.

또한, OCR(Optical Character Recognition) 기술을 활용해 문서 타입 분류를 시도했으나, 여러가지 문제로 인해 시간이 많이 소모되었습니다. 이러한 문제를 해결하는 과정에서의 시간 배분 문제로 여러가지 어려움을 격게 됩니다.

한계/교훈을 바탕으로 다음 경진대회에서 시도해보고 싶은 점은 무엇인가?

이번 경험을 바탕으로 다음 경진대회에서는 시간 관리를 더욱 철저히 하고자 합니다. 구체적으로는 초기 단계에서의 실험 계획을 보다 정교하게 수립하고, 각 단계별로 예상 소요 시간을 명확히 설정하여 진행하려고 합니다. 이를 통해 실험적인 시도들도 충분히 진행할 수 있도록 할 계획입니다.

또한, 협업의 효율성을 높이기 위해 주기적인 회의를 통해 의견을 조율하고, 프로젝트 관리 도구를 적극 활용하여 작업의 진행 상황을 더욱 체계적으로 관리할 것입니다. 이러한 개선점을 통해 팀워크를 강화하고, 최종 성과를 더욱 높일 수 있을 것이라 생각합니다.

특히, 다음 경진대회에서는 데이터 분석과 처리에 좀더 신경을 쓸 생각이며, 이번 대회에서도 여전히 데이터 전처리의 중요성을 뼈저리게 느꼈기 때문에, 더욱 철저한 EDA(Exploratory Data Analysis)를 통해 학습 데이터의 품질을 최적화하고자 합니다.

내가 해본 시도 중 실패와 교훈

하나의 실패 사례로는 데이터 증강 기법을 처음 도입했을 때, 과도한 데이터 변형이 모델의 성능을 저하시킨 경험이 있습니다. 이 과정에서 데이터의 본질적인 특성을 훼손하지 않으면서도 다양성을 높이는 것이 중요하다는 교훈을 얻었습니다. 또한, OCR을 통한 텍스트 인식의 정확성을 높이기 위한 추가적인 연구와 실험이 필요함을 깨달았습니다. 마지막으로 "모델"을 선택할 때, 그 모델을 선택한 기준이 명확하게 정해지는 것이 중요하다는 것을 깨달았습니다. 단순히 성능이 뛰어나다는 것보다 현재 이 프로젝트 시간과 리소스 상 가장 최적의 모델을 선택하는 근거와 기준을 세우는 것이 중요하다는 것을 다른 조들의 발표에서 분명히 깨닫게 되었습니다.

후기 및 인사이트:

이번 대회에서는 데이터 전처리와 모델 선택의 중요성을 깊이 인식하게 되었습니다. 팀원들과의 협업을 통해 다양한 시도를 했고, 각각의 실험이 최종 결과에 중요한 영향을 미쳤습니다. 다음 대회에서는 이러한 경험을 바탕으로 더 나은 성과를 기대하며, 다양한 기술과 방법론을 가설과 검증을 기반으로 여러 시도할 계획입니다.

최종 성과:

Leader Board: 4등

F1_Score: 0.9530

제출 횟수: 85

profile
인공지능관련 작업중

0개의 댓글