🖋️ 개요
데이터
베이스라인 코드
베이스라인 코드는 DBNet을 기반으로 작성되었다
- DBNet : Real-time Scene Text Detection with Differentiable Binarization

사진에서와 같이 텍스트가 적힌 region을 박스로 detect 해야한다.
- 학습 소요 시간 (대회 환경 V100) : 10 epoch 기준 약 22분
- 코드 성능
- H-Mean : 0.8818
- Precision : 0.9651
- Recall : 0.8194
- DBNet
DBNet(Deep Boundary Network)은 텍스트 탐지를 위한 딥러닝 모델로, 텍스트 경계와 영역을 동시에 예측하여 정확성과 효율성을 높이는 모델입니다. 주로 OCR(광학 문자 인식) 작업에 사용되며, 텍스트 인스턴스의 경계를 명확히 구분할 수 있도록 설계되었습니다.
- Hydra
Hydra는 Python 기반의 구성 관리 라이브러리로, 다양한 설정 파일과 명령줄 매개변수를 쉽게 관리하고 실험 재현성을 보장합니다. 특히 딥러닝 프로젝트에서 구성 관리와 실험 조율에 유용하게 사용됩니다.
- PyTorch Lightning
PyTorch Lightning은 PyTorch 기반의 딥러닝 프레임워크로, 코드 구조를 모듈화하고 반복 작업을 줄여 코드 가독성을 향상시킵니다. 훈련, 검증, 테스트 루프를 자동화하며 다중 GPU, TPU 지원과 MLOps 통합을 쉽게 수행할 수 있습니다.
- CLEval
CLEval은 OCR 및 텍스트 인식 모델의 성능 평가를 위해 설계된 평가 도구로, 텍스트 인식 작업에서 정확도와 재현율을 계산하는 데 사용됩니다. 문자의 위치와 내용이 정확히 인식되었는지 평가하여 모델의 성능을 정량화합니다.
평가방법
이번 대회는 Recognition 보다는 Detection 방법에 더 가까운 대회이다. 모든 이미지(총 413장의 영수증 이미지)에 대해서 Text Region을 예측하고 답을 제출한다.
접근 방식
이번에는 하루에 논문 2편 이상을 읽으며 인사이트를 얻고, 이를 경진대회 태스크에 적용해보도록 할 것이다.
🖋️ Trials
🖋️ Result
🖋️ 회고