이번 경진대회의 주요 목표는 문서 이미지 분류에서 최고의 성능을 달성하는 것이었습니다. 구체적으로는, 다양한 문서 이미지를 정확하게 분류하여 각 이미지의 문서 타입을 예측하는 문제를 다루었습니다. 이 목표를 달성하기 위해, 저는 팀과 협력하여 최신의 사전 학습된 모델과 고급 데이터 증강 기법을 결합하는 접근법을 설계했습니다. 이러한 기술적 목표 외에도, 경진대회를 통해 이미지 분류 모델의 일반화 성능을 극대화하고, 모델 앙상블 기법의 효과를 검증하는 것이 주요 학습 목표였습니다.
개인적으로는 EfficientNet 시리즈와 Tiny ViT 모델의 활용에 집중했습니다. EfficientNet은 효율적이고 성능이 우수한 모델로, 다양한 스케일에서 뛰어난 결과를 보이는 모델입니다. 이를 통해 문서 이미지 분류에 필요한 복잡한 패턴을 효과적으로 학습할 수 있었습니다. Tiny ViT는 경량화된 비전 트랜스포머로, 제한된 리소스에서 높은 성능을 발휘할 수 있어 데이터의 특성을 잘 학습할 수 있었습니다.
또한, 저는 Albumentations 라이브러리를 활용하여 다양한 데이터 증강 기법을 적용했습니다. 이는 학습 데이터의 다양성을 높이고, 모델이 더 일반화된 성능을 발휘하도록 돕는 데 중요한 역할을 했습니다. 구체적으로는 회전, 밝기 조절, 노이즈 추가 등의 증강 기법을 활용하여 모델이 다양한 문서 이미지를 잘 처리할 수 있도록 했습니다.
이번 경진대회에서 Test Time Augmentation (TTA)과 소프트 보팅 기법을 새롭게 도입했습니다.
TTA는 테스트 단계에서 다양한 변환을 적용하여 여러 예측 결과를 얻고, 이를 평균화하여 최종 예측을 생성하는 기법입니다. 이 방법은 모델이 단일 이미지에 대해 보다 신뢰할 수 있는 예측을 할 수 있게 합니다. 특히, 문서 이미지의 특성상, 작은 변환이 예측 결과에 큰 영향을 미칠 수 있기 때문에 TTA는 예측의 안정성을 높이는 데 크게 기여했습니다.
소프트 보팅은 여러 모델의 예측 결과를 결합하여 최종 예측을 도출하는 기법입니다. 이를 통해 각 모델이 가지는 고유한 강점을 결합하고, 모델 개별의 약점을 상쇄시킬 수 있었습니다. 예를 들어, EfficientNet B5와 Tiny ViT 모델은 각기 다른 특성을 학습하므로, 이들을 결합함으로써 더 높은 분류 정확도를 달성할 수 있었습니다.
이러한 시도들은 결론적으로 Macro F1 Score를 높이는 데 매우 효과적이었고, 최종 평가에서 1위를 차지하는 데 결정적인 역할을 했습니다.
이번 경진대회에서 가장 큰 한계는 특정 클래스의 이미지 분류에서의 성능 저하였습니다. 예를 들어, target 3, 4, 7, 14는 문서의 구조만으로 분류하기 어려운 클래스들이었습니다. 이들은 종종 유사한 레이아웃을 가지고 있거나, 텍스트의 미세한 차이가 큰 역할을 하는 클래스들이었습니다.
이를 해결하기 위해 OCR(Optical Character Recognition)을 도입하여 문서 내 텍스트 정보를 추가로 분석했습니다. EasyOCR을 사용해 이미지의 텍스트를 추출하고 이를 분류에 활용했지만, OCR의 성능이 모든 클래스에서 일관되게 우수하지는 않았고, 특히 이미지 해상도가 낮거나 노이즈가 많은 경우 어려움을 겪었습니다. 이로 인해 일부 클래스에서는 최적의 결과를 얻지 못한 점이 아쉬웠습니다.
시간적 제약으로 인해 OCR 기법을 모든 이미지에 적용하지 못한 점과, 데이터의 부족으로 인한 특정 클래스의 성능 저하가 가장 아쉬웠습니다. 또한, 팀 내에서 작업 분담이 명확하지 않아서 일부 작업에서 비효율이 발생했습니다. 예를 들어, OCR 전처리 과정에서의 역할 분담이 명확하지 않아 작업 속도가 늦어졌고, 이로 인해 최적의 파이프라인을 구축하는 데 시간이 부족했습니다.
다음 경진대회에서는 OCR 기법의 효율성을 극대화하고, 문서 내 텍스트와 이미지를 동시에 처리할 수 있는 멀티모달 모델을 시도해보고자 합니다. 이를 통해, 텍스트와 이미지의 상호작용을 보다 효과적으로 학습할 수 있을 것으로 기대합니다.
또한, 팀 내 역할 분담을 명확히 하여 작업의 효율성을 높이고, 협업 도구를 적극적으로 활용하여 실시간으로 진행 상황을 공유하고, 문제를 빠르게 해결할 수 있도록 개선할 계획입니다. 더불어, 데이터 증강 기법의 다양화를 통해 데이터의 불균형을 보다 효과적으로 해결하고자 합니다.
이번 경진대회를 통해 다양한 모델 앙상블 기법의 중요성과 OCR의 잠재력을 깊이 이해하게 되었습니다. 또한, 데이터 증강 기법이 모델의 일반화 성능을 향상시키는 데 얼마나 중요한 역할을 하는지 다시 한번 확인할 수 있었습니다.
경진대회는 단순히 기술적 도전뿐만 아니라, 팀워크의 중요성과 효율적인 협업의 가치를 다시금 깨닫게 하는 중요한 경험이었습니다. 이러한 교훈을 바탕으로, 다음 경진대회에서는 더 나은 성과를 이룰 수 있도록 노력할 것입니다. 더 나아가, 이러한 경험들이 앞으로의 연구 및 실무에 큰 도움이 될 것이라 확신합니다.