Learning from Noise: Enhancing DNNs for Event-Based Vision through Controlled Noise Injection

김현우·2025년 8월 12일
0

thesis

목록 보기
9/9

요약

  • 무엇인가?: 전처리 단계가 아니라, 딥러닝 모델을 훈련(Training)시키는 시점에 실시간으로 적용되는 데이터 증강(Data Augmentation) 방식입니다.

  • 어떻게 사용하나?:

    1. '깨끗한 원본 데이터셋'을 준비합니다.

    2. 모델 훈련을 시작하면, 데이터를 불러올 때마다 매번 0Hz ~ 5Hz 사이의 노이즈 강도를 무작위로 새로 뽑습니다.

    3. 그렇게 즉석에서 생성된, 매번 다른 강도의 노이즈가 섞인 데이터를 모델에게 보여주며 훈련시킵니다.

  • 장점 (논문에 따르면): 모델이 다양한 노이즈 환경을 골고루 학습하기 때문에, 어떤 강도의 노이즈가 들어와도 안정적으로 높은 성능을 내는 '만능형' 모델이 됩니다.

  • 단점: 구현이 더 복잡합니다. 전처리 스크립트가 아닌, PyTorch나 TensorFlow 같은 딥러닝 프레임워크의 훈련 파이프라인(예: DataLoader)에 직접 노이즈 생성 로직을 통합해야 합니다.

Abstract & Introduction

1. 배경: 이벤트 카메라의 잠재력과 근본적 한계

이벤트 카메라는 뉴로모픽 카메라라고도 불리며, 높은 시간 해상도, 낮은 지연 시간, 에너지 효율성 덕분에 기존 프레임 기반 카메라의 강력한 대안으로 주목받고 있습니다. 이 카메라는 각 픽셀의 밝기 변화를 독립적으로 감지하는 독특한 방식으로 작동하여 , 로봇 공학, 자율 주행, 빠르게 움직이는 객체 추적과 같은 동적 시나리오에서 시각 정보를 효율적으로 수집합니다.

하지만 원본 이벤트 데이터는 환경적 방해와 하드웨어의 불완전성으로 인해 노이즈와 아티팩트에 매우 취약합니다. 특히 노이즈의 강도는 관찰되는 장면의 밝기나 센서 온도 같은 작동 조건에 따라 계속 변동하기 때문에 , 이벤트 데이터를 처리하는 알고리즘은 이러한 노이즈 변화에 대한 견고성을 갖추는 것이 필수적입니다.

2. 기존 해결책의 문제점

현재 이벤트 데이터 처리에는 CNN, SNN, ViT, GCN 등 다양한 딥러닝 모델이 널리 사용되고 있으며 , 노이즈가 모델 성능에 부정적인 영향을 미친다는 것은 명백합니다. 이 문제를 해결하기 위해 전통적으로 필터링 알고리즘이 사용되어 왔습니다.

그러나 필터링은 근본적인 한계를 가집니다. 각 필터링 알고리즘은 노이즈를 제거하는 과정에서 필연적으로 실제 중요한 이벤트 데이터의 일부까지 제거하게 되며 , 이는 결과적으로 처리 알고리즘의 전체적인 효율성을 감소시킬 수 있습니다.

3. 제안된 해결책: '노이즈 주입 훈련'

본 논문은 기존 필터링 방식의 대안으로 '노이즈 주입(Noise-Injection) 훈련'이라는 새로운 데이터 증강 방법을 제안합니다. 이는 훈련 데이터에 제어된 노이즈를 의도적으로 주입하여 , 모델이 노이즈에 강한 표현(representation)을 스스로 학습하게 만드는 접근법입니다. 이를 통해 모델의 일반화 성능과 실제 환경 조건에 대한 견고성을 향상시키는 것을 목표로 합니다.

4. '샷 노이즈'의 활용과 핵심 원리

이 연구에서 활용하는 '샷 노이즈(shot noise)'는 다음과 같은 특징을 가집니다.

  • 정의: 센서의 광수용체나 회로에서 발생하는 무작위적인 전기적 변동으로 인해, 실제 밝기 변화가 없음에도 이벤트가 생성되는 하드웨어 수준의 노이즈입니다.

  • 시뮬레이션: 이 노이즈는 수학적으로 '푸아송 과정(Poisson process)'으로 모델링할 수 있으며 , 본 연구에서는 이를 근사하는 베르누이 시행을 통해 노이즈를 시뮬레이션합니다.

  • '다양한 강도'의 의미: 훈련 시, 모든 데이터에 동일한 양의 노이즈를 추가하는 것이 아니라, 각 훈련 샘플마다 무작위로 다른 강도의 노이즈를 주입합니다. 이를 통해 모델은 노이즈가 거의 없는 상태부터 매우 심한 상태까지 넓은 범위의 환경을 학습하여, 실제 예측 불가능한 노이즈 변화에 대한 안정성을 크게 높일 수 있습니다.

5. 검증 및 주요 기여

제안된 방법의 효과를 입증하기 위해 광범위한 실험을 수행했습니다.

  • 실험 환경: N-Caltech101, N-Cars, Mini N-ImageNet 데이터셋을 사용했으며 , CNN, SNN, ViT, GCN 등 여러 대표적인 네트워크 아키텍처에 적용하여 평가했습니다.

  • 실험 결과: '노이즈 주입 훈련' 전략은 다양한 노이즈 강도 범위에서 안정적인 성능을 보였고, 기존 필터링 기술을 일관되게 능가했으며, 가장 높은 평균 분류 정확도를 달성했습니다. 이는 제안된 방법이 기존 필터링을 대체할 수 있는 효과적인 대안임을 시사합니다.

본 논문의 주요 기여는 다음과 같습니다.

  • 다양한 강도의 샷 노이즈를 주입하여 신경망 성능에 대한 노이즈의 영향을 줄이는 새로운 이벤트 데이터 증강 방법을 제안했습니다.

  • 분류 작업에서 여러 신경망 아키텍처에 대한 노이즈의 효과와, 제안된 증강 기법 적용 후의 성능 개선을 분석했습니다.

  • 3가지 최신 필터링 방법의 영향을 조사하고, 이를 제안된 훈련 방법과 결합했을 때의 효과를 평가했습니다.

이벤트 노이즈 필터링 (Event Noise Filtration)

이벤트 데이터에 포함된 노이즈를 제거하기 위한 다양한 접근법

  • 상관관계 기반 필터링: 가장 대중적인 방법 중 하나는 이벤트 간의 시공간적 상관관계를 이용하는 것입니다.

    • 최근접 이웃(Nearest-Neighbour) 방법: 지정된 시간 창 내에서 주변에 다른 활동(이벤트)이 없는 고립된 이벤트를 노이즈로 간주하고 제거하는 방식입니다.
  • 신경망 기반 필터링: 딥러닝 모델을 사용하여 이벤트가 실제 신호인지 노이즈인지를 직접 분류하는 방식입니다.

    • EDnCNN: 3개의 합성곱 레이어와 2개의 완전 연결 레이어로 구성된 CNN 모델을 이용해 노이즈를 식별하고 제거하는 가장 대표적인 방법입니다. 이 연구는 각 픽셀의 이벤트 발생 확률을 평가하여 노이즈 가능성을 추정하는 메커니즘도 제안했습니다.
  • 스파이킹 신경망(SNN) 기반 필터링: 이벤트 카메라와 작동 방식이 유사한 SNN을 활용하는 방법도 주목받고 있습니다.

    • ex) 뉴로모픽 프로세서인 IBM TrueNorth에 구현된 네트워크는 '불응기(refractory period)'를 도입하여 특정 픽셀의 연속적인 노이즈 발생을 막고, 주변 이벤트와의 동시 발생 여부를 검증하여 노이즈를 걸러냅니다.

이벤트 기반 분류 (Event-based Classification)

이벤트 데이터를 활용한 분류 작업에서의 다양한 딥러닝 아키텍처

  • CNN (합성곱 신경망): 엣지나 텍스처 같은 지역적 특징 추출에 강점을 보여 가장 널리 사용되는 해결책 중 하나입니다.

    • 비동기적인 이벤트 스트림을 CNN이 처리 가능한 그리드(grid) 형태로 변환하거나 , 이미지와 유사한 형태로 먼저 학습시킨 후 비동기 버전으로 조정하는 연구들이 진행되었습니다.
  • ViT (비전 트랜스포머): 셀프 어텐션 메커니즘을 통해 이미지의 전역적인 맥락과 패턴을 효과적으로 포착합니다.

    • 이벤트가 발생한 픽셀만으로 패치를 구성하는 Event Transformer(EvT)나, 이벤트의 시공간적 속성을 보존하도록 설계된 3-방향 어텐션 메커니즘 등이 제안되었습니다.
  • SNN (스파이킹 신경망): 이벤트 데이터 처리의 효율성 덕분에 인기를 얻고 있습니다.

  • GCN (그래프 합성곱 신경망): 이벤트 데이터의 불규칙하고 희소한(sparse) 특성을 처리하기에 적합하여 유망한 접근법으로 평가됩니다.

    • 새로운 이벤트에 대한 효율적인 업데이트 규칙을 적용하거나(AEGNN) , 계산 복잡성을 줄이기 위해 이벤트를 대표적인 복셀(voxel)로 그룹화(복셀화)하여 전처리하는 전략 등이 사용됩니다.

이벤트 데이터 증강 (Event Data Augmentation)

머신러닝 모델의 일반화 성능을 높이기 위해 훈련 데이터를 인위적으로 늘리는 데이터 증강 기법 또한 이벤트 데이터에 맞게 발전해왔습니다.

  • 전통적 기법의 적용: 이미지의 이동, 회전, 크기 조절과 같은 기하학적 변환을 이벤트의 좌표에 적용하여 새로운 이벤트 스트림을 생성하는 방식으로 쉽게 활용될 수 있습니다.

  • 이벤트 특화 기법:

    • EventMix: 여러 이벤트 스트림을 하나의 훈련 샘플로 혼합합니다.
    • EventDrop: 의도적으로 이벤트의 일부를 무작위로 제거하여 모델이 불완전한 데이터에도 강건해지도록 훈련시킵니다.
    • EventRPG: SNN이 판단한 이벤트의 '중요도(saliency)' 정보를 활용해 덜 중요한 이벤트를 선별적으로 제거하거나 섞는 지능적인 방식을 사용합니다.

Method

이벤트 데이터와 노이즈 생성

  • 이벤트 데이터의 기본 원리: 이벤트 카메라는 각 픽셀이 독립적으로 빛의 밝기 변화를 감지합니다. 변화량이 설정된 임계값을 넘으면, 해당 픽셀의 좌표(x, y), 발생 시각(t), 변화의 방향(극성, p)을 담은 하나의 이벤트가 생성됩니다. 이 과정 덕분에 카메라는 높은 시간 해상도를 가진 희소한(sparse) 데이터 스트림을 만들어냅니다.
  • 노이즈의 종류와 모델링:
    • 샷 노이즈(Shot Noise): 센서 회로의 무작위적인 변동으로 인해 발생하는 노이즈로, 수학적으로 푸아송 과정(Poisson Process)을 통해 효과적으로 모델링할 수 있습니다.
    • 본 연구의 노이즈 생성 방법: 본 연구에서는 푸아송 과정을 베르누이 시행(Bernoulli trials) 시퀀스로 근사하여 노이즈를 생성합니다.
  1. 시간을 아주 짧은 간격(Δt)으로 나눕니다.
  2. 각 시간 간격마다, 특정 확률(P)에 따라 노이즈 이벤트의 발생 여부를 결정합니다.
  3. 이벤트가 발생하기로 결정되면, 노이즈가 나타날 픽셀의 좌표는 무작위로 선택됩니다. 이 방식은 정밀한 노이즈 강도 조절이 가능하여, 녹화된 실제 노이즈를 사용하는 방법의 한계(제어의 어려움, 오염 가능성)를 극복합니다.

Δt= 1/λ⋅N⋅D

P=λ⋅Δt= 1/N⋅D≪1

이벤트 노이즈 필터링(무엇과 비교)

본 연구에서는 제안된 방법의 성능을 비교하기 위해 3가지 최신 필터링 알고리즘을 사용했습니다.

  • NN (최근접 이웃): 특정 공간(3x3 윈도우)과 시간 윈도우 내에 이웃 이벤트가 없는 고립된 이벤트를 노이즈로 보고 제거하는 간단한 규칙 기반 필터입니다.
  • EDnCNN (이벤트 노이즈 제거 CNN): 딥러닝을 이용하는 방식으로, 특정 이벤트 주변(25x25 영역) 픽셀들의 최근 활동 이력(마지막 양수/음수 이벤트 발생 시각)을 분석하여 해당 이벤트가 노이즈인지 아닌지를 분류합니다.
  • DIF (거리 기반 보간 필터): 저사양 임베디드 시스템에 적합한 효율적인 필터입니다. 센서 영역을 여러 하위 영역으로 나누고, 주변 영역의 이벤트 발생 흐름을 바탕으로 특정 위치의 '정상적인' 이벤트 타임스탬프를 예측(보간)합니다. 실제 이벤트의 타임스탬프가 이 예측값과 크게 다르면 노이즈로 간주하여 제거합니다.

노이즈 주입 데이터 증강

노이즈를 훈련에 활용하는 두 가지 전략을 비교 조사했습니다.

  1. 고정 강도 노이즈 훈련: 모든 훈련 데이터에 항상 동일한, 고정된 수준의 노이즈를 추가하여 모델을 훈련시키는 방식입니다.
  2. 가변 강도 노이즈 훈련 (본 논문의 제안 방법): 각 훈련 데이터를 불러올 때마다 매번 다른 강도의 노이즈를 무작위로 주입합니다. 때로는 노이즈가 없기도 합니다. 이 방식은 데이터 증강의 한 형태로, 모델이 다양한 노이즈 환경에 적응하도록 만듭니다.

모델 아키텍처 및 이벤트 표현(실험 대상)

연구 결과의 보편성을 확인하기 위해 4가지 다른 종류의 딥러닝 아키텍처를 사용했습니다. 각 모델은 이벤트 데이터를 처리하기 위해 고유한'이벤트 표현' 방식을 사용합니다.

  • CNN (합성곱 신경망)

    • 아키텍처: ResNet18을 기반으로 합니다.
    • 이벤트 표현: '이벤트 카운트 이미지'. 양수/음수 극성별로 이벤트 수를 세어 2개 채널을 가진 이미지 형태로 만듭니다.
  • ViT (비전 트랜스포머)

    • 아키텍처: MaxViT를 기반으로 합니다.
    • 이벤트 표현: '복셀 그리드'. 시간을 T개의 구간으로 나누고, 각 구간마다 '이벤트 카운트 이미지'를 만들어 총 2T개의 채널을 가진 텐서 형태로 만듭니다.
  • SNN (스파이킹 신경망)

    • 아키텍처: ResNet18 기반에 SNN 고유의 뉴런(Integrate-and-Fire)을 적용했습니다.
    • 이벤트 표현: '이벤트 스파이크 텐서'. 시간을 T개의 구간으로 나누어 4차원 텐서(T×2×W×H)를 생성합니다.
  • GCN (그래프 합성곱 신경망)

    • 아키텍처: GCN ResNet을 기반으로 하며, SplineConv를 사용합니다.
    • 이벤트 표현: '복셀 그래프'. 계산 복잡성을 줄이기 위해, 시공간을 작은 복셀로 나누고 각 복셀 내의 이벤트들을 하나의 대표 노드로 그룹화하여 그래프를 만듭니다.

데이터셋

분류 작업 성능 평가를 위해 3가지 데이터셋을 사용했습니다.

  • N-Caltech101: 101개 카테고리, 240x180 해상도를 가진 데이터셋입니다.
  • N-Cars: 2개 카테고리, 120x100 해상도를 가진 실제 환경 데이터셋입니다.
  • Mini N-ImageNet: 100개 카테고리, 640x480 해상도를 가진 데이터셋입니다.
    • N-Caltech101과 Mini N-ImageNet은 모니터에 이미지를 띄우고 이벤트 카메라로 촬영하여 제작되었습니다.

구현 세부사항

  • 소프트웨어: PyTorch를 기본 환경으로 사용했으며, GCN과 SNN은 각각 PyTorch Geometric, SpikingJelly 라이브러리를 활용했습니다.
  • 주요 파라미터: ViT/SNN의 시간 스텝(T)은 10으로 설정했고, 데이터셋에 따라 50ms 또는 100ms의 이벤트 윈도우를 사용했습니다.
  • 훈련 파라미터: AdamW 옵티마이저를 사용했으며, 학습률은 1e-4, 가중치 감쇠는 1e-4로 설정했습니다.
  • NVIDIA GH200 및 A100 GPU로 최대 100 에포크까지 훈련했습니다.
  • 필터 파라미터: 비교 실험에 사용된 NN, DIF, EDnCNN 필터들은 각각 논문에 명시된 표준 설정값을 따랐습니다.

4. Experiments and Results

본 연구의 핵심 목표는 다양한 노이즈 환경에서 딥러닝 모델의 성능을 안정적으로 유지하는 최적의 훈련 방법을 찾는 것입니다. 이를 위해, 제안하는 '노이즈 주입(Noise-injection)' 훈련법의 우수성을 입증하고자 다음과 같이 4가지 다른 방식으로 모델을 훈련시켜 성능을 비교했습니다.

  • Original: 깨끗한 원본 데이터로 훈련한 기준 모델.
  • Filtered: 전통적인 방식대로, 노이즈를 사전에 제거한 데이터로 훈련한 모델.
  • Noise=1Hz/px: 특정 노이즈(1Hz/px) 환경에만 특화시킨 '전문가' 모델.
  • Noise-injection (제안 방법): 다양한 강도의 노이즈를 무작위로 주입하며 훈련시킨 '만능' 모델.

이렇게 훈련된 4가지 모델을 ①필터링 없는 환경과 ②필터링을 적용한 환경, 두 가지 시나리오에서 테스트하여 성능을 종합적으로 평가했습니다.

필터링 없는 환경에서의 성능

  • 정성적 결과
    모델이 노이즈 속에서 객체를 어떻게 인식하는지를 시각적으로 분석한 결과, 제안 방법의 압도적인 우수성이 드러났습니다

    • 표준 훈련 모델 (w/o): 노이즈가 강해지자 객체에 대한 초점을 완전히 잃고, 엉뚱한 배경을 보거나 활성화가 사라졌습니다.
    • 필터링 적용 모델 (NN): 표준 모델보다는 더 오래 버텼지만, 결국 심한 노이즈에서는 객체를 놓쳤습니다.
    • 제안 방법 (Ours): 노이즈가 가장 극심한 상황(5 Hz)에서도 전혀 흔들림 없이 객체의 특징을 정확하고 안정적으로 포착했습니다.
  • 정량적 결과
    그래프의 수치적 결과 또한 시각적 분석과 일치했습니다.

  • CNN, ViT, SNN 모델: 제안 방법(Noise-injection, 빨간색 선)은 노이즈 강도가 높아져도 가장 높고 안정적인 정확도를 유지했습니다. 반면 다른 방법들은 노이즈에 매우 취약하여 성능이 급격히 하락했습니다.
  • Noise=1Hz/px 모델(초록색 선)은 자신이 훈련된 1Hz/px 환경 근처에서만 성능이 잠깐 향상될 뿐, 다른 환경에서는 성능이 매우 저조하여 일반화 능력이 부족함을 보였습니다.

필터링 적용 시 성능

  • 정량적 결과
    Noise-injection 방법이 거의 모든 모델과 데이터셋 조합에서 가장 높은 평균 정확도를 달성하여 최고의 접근법임을 다시 한번 입증했습니다.

  • 필터링과의 상호작용

    • CNN, ViT, SNN 모델: 매우 흥미롭게도, Noise-injection으로 훈련된 이 모델들에 테스트 시 필터를 추가로 적용했더니 오히려 성능이 저하되었습니다.
    • 이는 EDnCNN 같은 필터가 너무 공격적으로 작동하여 노이즈뿐만 아니라 실제 중요한 이벤트 데이터까지 과도하게 제거하기 때문입니다(그림 3의 낮은 TPR). 즉, 제안 방법으로 훈련된 모델은 이미 노이즈 처리 능력을 내재하고 있어, 외부 필터링이 불필요하거나 오히려 해가 될 수 있음을 시사합니다.

주요 예외: GCN 아키텍처

  • 차이점: GCN은 다른 모델들과 달리 Noise-injection으로 훈련해도 노이즈가 강해지면 성능이 점진적으로 감소했습니다. 이는 GCN의 구조상 입력 이벤트 수가 많아지면 그래프 표현이 복잡해지기 때문으로 분석됩니다.

  • 공통점: 그럼에도 불구하고, GCN에서도 Noise-injection이 다른 모든 훈련법보다 일관되게 가장 높은 성능을 보였습니다.

  • 특이점: GCN은 다른 모델과 달리, Noise-injection 훈련과 추가적인 필터링(NN, DIF)을 결합했을 때 성능이 더욱 향상되는 유일한 아키텍처였습니다.

토의, 한계 및 결론

핵심 결론 및 장점

  • 효과 입증: 정량적, 정성적 분석을 통해 제안된 Noise-injection 방법이 노이즈가 많은 이벤트 데이터 분류에 매우 효과적임을 확인했습니다.

  • 최고 성능 달성: 이 방법으로 훈련된 모델들은 실험에 사용된 모든 아키텍처와 데이터셋에서 가장 높은 평균 분류 정확도를 달성했습니다.

  • 정보 보존: 가장 큰 장점은 공격적인 필터링 방법이 종종 제거해버리는 핵심 이벤트 정보를 보존하는 능력입니다. 과도한 이벤트 제거는 분류 성능을 떨어뜨리지만,

  • Noise-injection은 다양한 노이즈에 노출시켜 모델 자체의 견고성을 키웁니다.

  • 필터링의 대안: 이 방법은 신경망에 데이터를 입력하기 전 거치는 필터링 과정의 효과적인 대안이 될 수 있으며 , 다양한 환경에서 신경망의 효율을 높여 비전 시스템의 성능을 크게 향상시킬 잠재력이 있습니다.

  • 확장 가능성: 비록 분류 작업에 국한되어 실험했지만, 객체 탐지와 같은 다른 신경망 기반 작업에도 긍정적인 영향을 미칠 것으로 기대됩니다.

한계 및 트레이드오프

  • 필터링의 여전한 필요성: 제안된 방법이 필터링을 완전히 불필요하게 만드는 것은 아닙니다. 데이터 필터링은 처리할 이벤트의 수를 줄여 데이터 전송률, 저장 공간, 전력 소비, 계산 요구량을 낮추는 실용적인 이점이 여전히 존재합니다.

  • GCN 모델의 한계: 그래프 기반 신경망(GCN)에서는 제안 방법을 사용해도 노이즈가 증가함에 따라 성능이 점진적으로 감소하는 한계가 관찰되었습니다. GCN의 경우, 제안 방법에 적절한 필터링 기술(예: NN 필터)을 결합하면 성능을 더욱 향상시킬 수 있습니다.

  • 성능 트레이드오프: Noise-injection 방법은 노이즈 환경에 대한 견고성을 크게 높이는 대신, 노이즈가 전혀 없는 이상적인 환경에서는 아주 약간의 정확도 감소를 보일 수 있습니다. 이는 폭넓은 안정성을 얻기 위한 자연스러운 성능 절충(trade-off)으로 해석할 수 있습니다.

향후 연구 방향

  • 다른 유형의 노이즈를 탐구하고, 제안된 방법을 기존 필터링 기술과 통합하여 성능을 더욱 개선할 계획입니다.
  • 노이즈로 훈련한 모델과 그렇지 않은 모델 간에 지식 전달(knowledge transfer) 기술을 적용하는 방안을 모색할 것입니다.
  • GCN과 같이 그래프 기반 네트워크에서 관찰된 문제를 해결하는 데 집중할 예정입니다.

Addidional part

Detection results

  • 실험 목적:

    • 제안된 'Noise-injection' 방법이 분류(classification)보다 더 복잡한 작업인 객체 탐지(object detection)에서도 효과가 있는지 검증하기 위해 진행되었습니다.
  • 실험 방법:

    • N-Caltech101 데이터셋을 사용했으며, 분류 실험과 동일한 CNN, ViT 모델을 탐지 헤드(YOLOX)와 결합하여 사용했습니다.
    • 4가지 훈련 방식(Original, Filtered, Noise=1Hz, Noise-injection)을 동일하게 비교했으며, 성능은 mAP(mean Average Precision)로 측정했습니다.
  • 핵심 결과:

    • 안정적인 성능: 제안된 방법(Noise-injection)은 노이즈 강도가 높아져도 가장 안정적이고 높은 탐지 성능을 보였습니다. 다른 방법들은 노이즈에 따라 성능이 급격히 저하되었습니다.

    • 필터링 적용 시에도 우위: 테스트 데이터에 필터를 적용하여 다른 방법들의 성능을 보강해주어도, 제안된 방법이 여전히 최고의 결과를 달성했습니다.

Ablation over different filter parameters

  • 실험 목적:

    • "기존 필터링 방법의 설정을 최적의 상태로 완벽하게 조절하더라도, 제안된 Noise-injection 방법이 여전히 더 우수한가?"라는 질문에 답하기 위해 진행되었습니다.
  • 핵심 결과:

    • 완벽한 필터는 없음: 필터의 내부 설정값(Threshold)을 조절해 본 결과, 진짜 이벤트 보존율(TPR)과 노이즈 통과율(FPR) 사이에는 근본적인 트레이드오프 관계가 있어, 모든 노이즈를 완벽하게 제거하는 최적의 설정값은 존재하지 않음이 확인되었습니다.

    • 제안 방법의 압도적 우위: 가장 중요한 발견으로, Filtered 데이터로 훈련된 전통적인 모델이 자신에게 가장 유리한 최적의 설정값을 사용했을 때조차, Noise-injection으로 훈련된 모델의 성능을 단 한 번도 뛰어넘지 못했습니다.

    • 필터링이 오히려 방해: Noise-injection으로 훈련된 모델은 필터링을 약하게 할수록(즉, 이벤트를 덜 제거할수록) 오히려 성능이 더 좋아지는 경향을 보였습니다. 이는 모델 자체가 노이즈 처리 능력을 갖추었기 때문에, 과도한 필터링은 오히려 해가 될 수 있음을 의미합니다.

Real Noise Analysis

  • 실험 목적
    이 실험의 핵심 목표는 "인공적으로 생성된 노이즈로 훈련시킨 제안 방법이, 실제 카메라에서 발생하는 '진짜 노이즈' 환경에서도 효과적인지"를 검증하는 것입니다.

  • 실험 방법

    • 실제 이벤트 카메라로 변화가 없는 정적인 장면을 촬영하여 '순수 노이즈' 데이터를 수집했습니다.

    • 이 진짜 노이즈를 N-Caltech101 테스트 데이터에 섞은 후, 이전에 인공 노이즈로 훈련된 4가지 종류의 모델(CNN, ViT, SNN, GCN) 성능을 평가했습니다.

  • 핵심 결과

    • 제안된 Noise-injection 방법은 실제 노이즈 환경에서도 CNN, ViT, SNN 모델에 걸쳐 일관되게 가장 우수하고 안정적인 성능을 보였습니다.

    • ViT 모델의 경우, 노이즈가 매우 약할 때는 Filtered 방식이 근소하게(약 0.5%) 앞섰으나, 노이즈가 강해지자 제안 방법이 명확하고 상당한 우위를 보였습니다.

    • GCN 모델에서도 제안 방법은 Original 및 Filtered 모델보다 월등히 뛰어난 성능을 기록했습니다.

Timing Results

  • 필터링의 비용: 필터링은 노이즈를 줄여주지만, 시스템의 전체 처리 시간을 늘리는 추가적인 전처리 단계입니다.

  • 처리 속도 비교: 각 필터의 처리 속도를 분석한 결과, EDnCNN은 고성능 GPU를 사용했음에도 불구하고 다른 CPU 기반 필터(NN, DIF)보다 처리 속도가 현저히 느려 실시간 시스템에 적용하기 어렵다는 점이 확인되었습니다.((알고리즘 vs. 딥러닝)이 달라 실험 환경과 처리 속도에서 큰 차이를 보인 것입니다.)

  • 필터링의 한계: NN과 DIF 필터 역시 최신 이벤트 센서의 데이터 생성 속도를 따라가기에는 상대적으로 느린 수준이며, 이를 해결하려면 FPGA 같은 별도의 하드웨어 가속이 필요합니다.

  • 제안 방법의 이점: 결론적으로, 제안된 Noise-injection 방법은 이러한 전처리 필터 단계가 전혀 필요 없으므로, 추가적인 계산 자원이나 지연 시간 없이 임베디드 시스템에서 자원을 효율적으로 활용할 수 있는 중요한 이점이 있습니다.

Detailed Results

  • 상세 수치 결과 (표 5, 6, 7, 8)

    • 핵심 내용: 4가지 훈련 방식(Original, Filtered, Noise=1Hz, Noise-injection)의 성능을 비교해 보면, 제안 방법(Noise-injection, 표 8)이 다른 모든 방식에 비해 모든 노이즈 구간에서 일관되게 가장 높고 안정적인 정확도를 기록했음을 수치로 명확히 보여줍니다.
  • 상세 시각 자료 (그림 8, 9)

    • 핵심 내용: 표준 방법으로 훈련된 모델은 노이즈가 심해지면 객체에 대한 초점을 잃고 활성화가 흩어지는 반면, 제안된 방법(Our)으로 훈련된 모델은 가장 극심한 노이즈 환경에서도 객체에만 안정적으로 집중하는 일관된 패턴을 보여줍니다.
profile
학생

0개의 댓글