Paper Review: Effective Encoder-Decoder Network for Multiple Multi-Scale Jagged Masks in Vehicle Damage Segmentation

gitae lee·2026년 3월 31일

segmentation

paper review

목록 보기

12/16

IEEE Access 2026.
A-Seong Moon, Min-Kyung Sung, Jaesung Lee
AutoML Lab, Chung-Ang University

23 January 2026

💡Key Point

다수, 다중스케일, 불규칙 경계(MMSJM)라는 복합적인 문제를 가진 차량 손상 이미지는 어떻게 접근해야 할까?

1. Motivation

기존 segmentation 모델(Mask R-CNN, UNet, SegFormer 등)은 일반적인 object segmentation에서는 좋은 성능을 보임
하지만 ‘차량 손상 segmentation’ 이라는 특수한 task는 여러 특징을 가짐

‘차량 손상 segmentation’의 어려움

1) 다양한 크기(multi-scale) 문제

작은 스크래치부터 큰 찌그러짐까지 공존한다
fixed receptive field 기반 모델은 모든 스케일을 동시에 처리하기가 어렵다

2) 불규칙한 경계 (jagged boundary)

손상 영역은 경계가 명확하지 않고 매우 복잡하다
기존 모델은 boundary localization이 부정확하다는 문제가 있다

3) 다중 손상 영역 (multiple instances)

일반적으로 한 이미지에는 여러 손상이 동시에 존재한다
서로 가까이 있거나 겹치면서 segmentation 오류가 발생할 수 있다

4) 복잡한 환경의 영향

조명, 배경, 시점, 차량 색상 등에 따라 appearance가 크게 변한다
일반 segmentation보다 훨씬 노이즈한 입력 환경을 고려해야한다

⇒ 논문에서는 이를 ‘Multiple Multi-Scale Jagged Masks (MMSJM)’로 정의

기존 연구들의 한계점

multi-scale, attention, boundary refinement등의 기법은 존재하지만 대부분 개별적으로만 적용됨
- scale 문제만 해결, boundary만 개선 등..
그러나 실제 환경에서는 이 모든 문제가 ‘동시에 발생’하므로 기존 방법으로는 완전한 해결이 불가능하다.

⇒ 차량 손상 segmentation은 다양한 크기, 다중 객체, 불규칙한 경계가 동시에 존재하는 MMSJM 문제이며, 기존 방법들은 이를 통합적으로 해결하지 못한다.

2. Insight

1) 차량 손상 분할은 ‘복합 문제(MMSJM)’를 모두 고려해야 한다

차량 손상은 단순한 object 분할과 다르게 여러 개의 손상이 동시에 존재하고, 크기가 다양하고, 경계가 불규칙하다.
기존에는 이러한 요소들을 각각 개별적으로 처리했지만 실제 환경에서는 multiple + multi-scale + jagged 문제가 동시에 발생하기 때문에, 복합 기법으로 접근해야 한다.

2) 문제 요소를 해결하는 모듈 매칭과 모듈 간 상호작용이 중요하다

기존 방식은 하나의 일반적인 feature extractor로 모든 문제(MMSJM)을 해결하려고 한다.
하지만 각각의 문제에 대응하는 모듈을 개별적으로 설계하는 것이 중요하고,
설계된 모듈들을 어떻게 효과적으로 상호작용하게 만드는지가 중요하다.

3) segmentation의 핵심은 feature 선택과 강조 방식

차량 손사은 “배경과 시각적으로 유사한 경우”가 많다
따라서 단순 feature extraction만으로는 부족하고 어떤 feature가 실제 손상인지 선택하고 중요도를 재조정하는 과정이 필요하다.

3. Method

Overall Architecture

encoder-decoder + fully convolutional 구조
입력: 512 x 512 x 4 이미지
출력: pixel 단위 손상 마스크

모듈 1: Channel-wise Feature Recalibration

여러 손상 영역이 동시에 존재할 때 발생하는 feature간 간섭 문제를 해결하기 위한 모듈
각 채널의 global 정보를 기반으로 중요도 계산 → 이를 통해 feature 재조정
1. Global Average Pooling → channel descriptor 생성
  
  $z_c = \frac{1}{H W} \sum_{i=1}^{H} \sum_{j=1}^{W} F_{c,i,j}$
2. MLP → channel-wise weight 계산 (MLP+sigmoid)
  
  $w = \sigma \left( W_2 \, \delta (W_1 z) \right)$
3. 원 feature에 weight 적용 (scaling)
  
  $F_c^{scaled} = w_c \cdot F_c$

⇒ 서로 인접하거나 겹치는 손상 영역의 구분을 용이하게 함 (중요 채널 강조, 불필요 채널 억제)

모듈 2: Multi-scale Feature Aggregation

다양한 크기의 손상 영역을 동시에 인식하기 위한 multi-branch 모듈
하나의 feature map에 대해 아래 연산을 병렬로 수행
1. 1×1 conv (local 정보 유지)
2. 3×3 dilated conv (r = 6, 12, 18)
3. global average pooling (global context)
각 branch의 출력을 channel-wise로 결합한 뒤, 1x1 conv로 통합
- feature concat
  - $F_{ctx} = [\phi_1(F_{enc}), \phi_2(F_{enc}), \dots, \phi_K(F_{enc})]$
- final aggregation
  - $F_{agg} = \delta \left( BN(W \cdot F_{ctx}) \right)$

⇒ 다양한 수용 영역 활용으로 인해 작은 손상부터 큰 손상까지 다양한 스케일에 대응이 가능

모듈 3: Dual-stage Attention

불규칙하고 모호한 경계를 가지는 손상 영역을 정밀하게 포착하기 위한 모듈
인코더 피처맵이 디코더로 전달되기 전, skip connection 경로에서 적용됨

Channel Attention

avg pooling과 max pooling을 통해 channel descriptor 생성
MLP를 통해 channel-wise weight 계산 후 feature에 적용 ⇒ 어떤 feature가 중요한지 선택

Spatial Attention

channel 방향 pooling을 통해 spatial map 생성
convolutional을 통해 spatial attention map 생성 후 feature에 적용 ⇒ 어느 location이 중요한지 선택

⇒ 경계 region에서의 feature 대비력이 향상, 더 정교하고 정확 segmentation boundary 생성

4. Experiment Analysis

1) Quantitative & Qualitative Results

모든 metric 에서 기존 모델 대비 일관된 성능 향상을 보였음
특히 precision과 recall이 동시에 높은 수치를 달성했고 밸런스 있는 segmentation 성능을 달성
시각적 결과에서도 multiple damage region을 정확히 분리하였고 boundary가 더 정교하가 노이즈가 적음

⇒ 복잡한 MMSJM 환경에서도 정확도와 안정성을 동시에 확보함

2) Comparative Analysis

기존 일부 모델은 recall은 높지만 precision이 낮아 과도한 검출(over-segmentation) 발생
또 다른 일부 모델은 precision은 높지만 recall이 낮아 손상 영역을 놓치는 문제 발생
본 모델은 false positive와 false negative를 동시에 줄였고 신뢰도 높은 segmentation 결과를 생성함

⇒ 특히 다양한 크기와 형태의 손상이 혼재된 상황에서 일관된 성능 유지

3) Ablation Study

각 모듈의 개별 적용 시
- Multi-scale aggregation → 다양한 크기 대응 (recall 증가)
- Dual attention → boundary 정밀화 (precision 증가)
- Channel recalibration → feature 간 간섭 감소
하지만 단일 모듈만으로는 성능이 제한적이며 특정 metric만 개선되는 trade-off 발생

⇒ 각 모듈은 서로 보완적 → 세 모듈을 모두 결합했을 때 가장 효과적

5. Significance of Paper

1) 다중 문제(MMSJM )를 온전히 해결한 논문

차량 손상 segmentation의 어려움을 multiple + multi-scale+ jagged boundary → MMSJM이라는 하나의 문제로 정의함
기존 연구가 개별 요소만 다뤘던 것과 달리 문제를 구조적으로 분해하고 각 요소에 대응하는 모듈을 설계했음

2) 문제 요소 - 해결 모듈 간의 균형 있는 조합

해결책으로 제시된 multi-scale, attention, channel weighting은 기존에도 존재하였지만
본 논문은 단순히 모듈을 추가하는 것이 아니라, 각 모듈을 특정 문제에 대응하도록 설계했음
단순히 좋은 모듈간의 조합이 아니라 특수한 segmentation 상황에 맞게 효과적인 모듈 결합을 선보임

3) Precision–Recall 균형을 동시에 개선

기존 모델은 두 지표 간 trade-off 관계가 뚜렷하게 드러났지만,
- recall ↑ → over-segmentation
- precision ↑ → under-segmentation
제안한 모델은 false positive / false negative 모두 감소된 결과를 보여 균형 잡힌 segmentation 성능을 달성했음

gitae lee

grit

이전 포스트

Paper Review: Blended embedding guided style transfer in inversion-based diffusion for creatively-matched source-reference pairs

다음 포스트