LG-BPN: Local and Global Blind-Patch Network for Self-Supervised Real-World Denoising

dinoST·2026년 1월 27일

AI VISION denoising gist restoration ssl

GIST 동계 인턴

목록 보기

11/11

안녕하세요.

이번에 리뷰하고자 하는 논문은 LG-BPN: Local and Global Blind-Patch Network for Self-Supervised Real-World Denoising 이라는 논문입니다.

LG-BPN은 바로 이 지점에서 문제를 재정의합니다. 이 논문은 “blind-spot이 반드시 local일 필요가 있는가?” 라는 질문을 던지며, 노이즈의 공간적 상관 관계는 국소(local) 수준뿐만 아니라 전역(global) 수준에서도 모델링되어야 한다는 관점에서 접근합니다. 다시 말해, 기존 BSN이 국소적인 패치 수준에서만 신호와 노이즈를 분리하려 했다면, LG-BPN은 local blind-patch와 global blind-patch를 동시에 고려하는 구조를 통해 더 넓은 범위의 노이즈 상관 구조를 포착하고자 합니다.

이제 본격적으로 해당 논문에 대해서 리뷰해보도록 하겠습니다❗️

Abstract

Synthetic noise에 대한 단순화된 가정 하에서의 상당한 결과에도 불구하고, 대부분의 self-supervised denoising method는 강한 spatial noise correlation으로 인해 실제 노이즈 환경에서는 실패하며, 여기에는 advanced self-supervised blind spot network(BSN)도 포함됩니다. Real-world denoising을 목표로 하는 최근 방법들은 이러한 공간적 상관관계를 무시하여 문제가 발생하거나, 상관관계를 충분히 고려하지 않아 미세한 질감의 파괴로 인해 제한됩니다. 본 논문에서는 self-supervised real world denoising을 위한 새로운 방법인 LG-BPN을 제안합니다. 이 방법은 Spatial correlation statistic를 네트워크 설계에 통합하여 local detail restoration을 수행하며, 기존 CNN 기반 BSN 방법에 long-range dependencies 모델링 능력을 부여합니다.

[Synthetic noise에 대한 단순화된 가정]이 무엇인지 알아보도록 하겠습니다. 먼저, 첫 번째로 Noise에 대한 Zero-mean 가정을 수행하게 됩니다. 이는 Noisy image(y)는 Clean signal(x) + Noise(n)으로 볼 수 있습니다. 그럼 모델이 학습을 하는 기대값의 경우, $E[y] = E[x + n] = x$ 가 됩니다. 이때, 노이즈의 기대값을 0으로 만들어 모델이 단 하나의 Noisy image에서 Clean signal을 학습할 수 있게 해주는 가정입니다. 두 번째 가정은 Noise Signal이 Pixel-wise Independent하단 가정입니다. 이는 Self-supervised 기반 Denoiser들은 BSN을 활용하는 데 이때, Blindness한 pixel의 정보를 주변 pixel들로 유추하게 됩니다. 그러나 여기서 Blind pixel의 정보가 주변 pixel 정보로부터 흘러 들어오게 된다면 Identity mapping을 학습하게 됩니다. 그렇기 때문에 모델의 올바른 학습을 위해서 Pixle-wise Independent를 가정하게 됩니다.

첫째, Spatial correlation statistic을 기반으로 densely-sampled patch_masked convolution module를 제안합니다. 낮은 noise correlation을 가진 더 많은 이웃한 픽셀을 고려함으로써, 더 밀집된 local receptive field를 구현하여 향상된 미세 구조 복원을 위한 더 많은 유용한 정보를 보존합니다.
둘째, BSN에서 distant context 활용을 가능하게 하는 dilated Transformer block을 제안합니다. Global perception은 blind spot 조건으로 인해 receptive field가 제한되는 BSN의 본질적인 결함을 해결하며 이러한 결함은 기존의 CNN 기반 BSN들로는 완전히 해결될 수 없습니다.

blind spot requirement는 출력 픽셀이 자기 자신을 보면 안 되기 때문에 중앙 픽셀을 가리거나 receptive field를 반쪽으로 제한하는 등 RF를 마음대로 키울 수 없습니다. 즉, layer를 깊게 쌓아도, dilation을 써도 kernel을 키워도 구조적 한계가 존재합니다. 이로 인해서 CNN 기반에서는 global 정보를 볼 수 없다는 구조적 한계를 의미합니다. 이를 해결하고자 LG-BPN은 local blind-patch와 global blind-patch를 도입하여 global context를 보게 합니다.

이러한 두 가지 설계는 LG-BPN이 블라인드 방식으로 detailed structure와 global interaction을 모두 완전히 활용할 수 있도록합니다. Real-world 데이터셋에 대해서 다양한 실험을 통해 본 논문이 우수한 성능을 입증합니다.

Introduction

Image denoising은 low-level vision 분야의 근본적인 연구 주제입니다. 노이즈는 캡처된 이미지의 품질을 크게 저하시켜 후속 다운스트림 작업에 부정적인 영향을 미칩니다. 최근 신경망의 급속한 발전과 함께, 학습 기반 방법은 전통적인 모델 기반 알고리즘에 비해 상당한 발전을 보여주었습니다. 불행히도, 학습 기반 방법은 종종 훈련을 위해 대규모 레이블이 지정된 이미지 쌍에 의존합니다. 가법 백색 가우시안 노이즈(AWGN) 쌍을 합성하는 것으로는 이를 간단히 해결할 수 없습니다. AWGN과 실제 노이즈 분포 간의 격차는 실세계에서의 성능을 심각하게 저하시키기 때문입니다. 이를 위해 Real-world dataset을 수집하기 위한 여러 시도가 있었습니다. 그럼에도 불구하고, 엄격하게 제어되고 노동 집약적인 수집 절차로 인해 그 적용은 여전히 방해받고 있습니다. 예를 들어, 지상 실측 이미지를 캡처하려면 장노출 또는 다중 촬영이 필요하며, 이는 복잡한 상황, 예를 들어 움직임이 있는 동적 장면에서는 사용할 수 없습니다.

대규모 쌍 데이터셋의 제약을 완화하기 위해, 지상 실측이 필요 없는 방법들이 점점 더 많은 주목을 받고 있습니다. 선구적인 연구인 Noise2Noise(N2N)는 훈련을 위해 쌍으로 된 노이즈 관측치를 사용하며, 이는 깨끗한 이미지를 사용할 수 없을 때 적용될 수 있습니다. 하지만 동일한 장면에서 이러한 노이즈 쌍을 얻는 것은 덜 실현 가능합니다. self-supervised를 더 실용적으로 만들기 위해, 연구자들은 쌍의 관측치가 아닌 하나의 관측치로부터 학습하는 방법을 모색하고 있습니다. 이러한 방법들 중에서, 블라인드 스팟 네트워크(BSN)는 특별한 블라인드 스팟 수용 필드 요구 사항을 사용하여 이웃 픽셀을 활용하여 깨끗한 픽셀을 복원하는 데 상당한 발전을 보여주었습니다. AWGN과 같은 단순한 노이즈에 대해 유망한 결과를 보였음에도 불구하고, 이러한 방법들은 일반적으로 노이즈가 픽셀 단위로 독립적이라는 것과 같은 단순화된 가정 하에서 작동합니다. 이는 실제 노이즈의 경우 명백히 해당되지 않는데, 실제 노이즈는 분포가 극도로 복잡하고 강한 공간적 상관관계를 가질 수 있습니다.

이에 따라, self-supervised real iamge denoising을 위한 몇 가지 방법이 제안되었습니다. Recorrupted-to-Recorrupted (R2R)은 노이즈-노이즈 쌍을 구성하려고 시도하지만, 추가 정보 없이는 직접 적용할 수 없으며 이는 실제 상황에서 실용적이지 않습니다.CVF-SID는 노이즈 이미지에서 노이즈 성분을 분리하지만, 실제 노이즈가 공간적으로 불변하다고 가정하고 공간적 상관관계를 무시하는데, 이는 실제 노이즈 분포와 모순됩니다.

최근 AP-BSN은 픽셀 셔플 다운샘플링(PD)과 블라인드 스팟 네트워크(BSN)를 결합합니다. PD는 BSN의 노이즈 가정을 충족하는 데 활용될 수 있지만, 단순히 PD를 CNN 기반 BSN과 결합하는 것은 공간적으로 상관된 실제 노이즈를 처리하는 데 있어 최적이 아닙니다. 이는 지역적 세부 사항을 손상시켜, 특히 큰 PD 스트라이드 계수의 경우, 다운샘플링된 이미지에 Aliasing artifacts와 같은 아티팩트를 발생시킵니다. 또한, 더 발전된 BSN 설계가 제안되었음에도 불구하고, CNN 기반 BSN은 컨볼루션 연산자 때문에 long-range interaction을 포착하지 못하며, 이는 Blind-spot 요구 사항 하에서 제한된 Receptive field에 의해 더욱 제약됩니다.

본 논문에서는 self-supervised real iamge denoising에서 발생하는 문제들, 즉 추가 정보에 대한 의존성, 노이즈 상관관계로 인한 지역 구조 손실, 그리고 원거리 픽셀 상호작용 모델링 부족 등을 해결하기 위해 LGBPN이라는 새로운 방법을 제안합니다. LG-BPN은 외부 정보 없이 직접 훈련될 수 있습니다. 더욱이, 실제 노이즈의 공간적 상관관계를 신중하게 고려하여 미세한 질감의 손상을 완화하는 동시에, Transformer를 blind-spot network에 맞춤화하여 long-range interaction을 주입합니다.

첫째, local information의 경우, Densely-sampled patch masked convolution (DSPMC) 모듈을 도입합니다. 실제 노이즈 공간 상관관계의 사전 통계에 기반하여, Denser Receptive fields을 통해 더 많은 이웃 픽셀을 고려하여 네트워크가 더 상세한 구조를 복구할 수 있도록 합니다.

둘째, global information의 경우, Dilated Transformer Block(DTB)을 도입합니다. 특별한 블라인드 스팟 요구 사항 하에서, 이는 이전 CNN 기반 BSN에 비해 수용 영역을 크게 확장하여, 중앙 블라인드 스팟 픽셀을 예측할 때 더 많은 이웃을 활용할 수 있게 합니다. 이 두 가지 설계는 각각 local and global information을 완전히 활용할 수 있게 합니다. 광범위한 연구는 그림 1에서 보여주듯이, LG-BPN이 실제 이미지 노이즈 제거에서 다른 최첨단 비지도/자기 지도 방법보다 우수함을 입증합니다.

우리의 기여는 다음과 같이 요약됩니다:

• 우리는 실제 세계 이미지 노이즈 제거를 위한 새로운 자기 지도 방법인 LGBPN을 제안하며, 이는 local detailed structure와 capture of global representation을 효과적으로 인코딩할 수 있습니다.

• 실제 노이즈 공간 상관관계 분석에 기반하여, 우리는 이웃 픽셀에 대한 higher sampling density를 활용하여 개선된 지역 질감 복구를 위한 denser receptive field를 가능하게 하는 DSPMC 모듈을 제안합니다.

• 이전 CNN 기반 BSN 방법에서 long-distance dependencies을 구축하기 위해, 우리는 블라인드 스팟 수용 영역 제약 조건을 준수하면서 global context를 집계하는 DTB를 도입합니다.

Supervised Image Denoising

DnCNN은 Image Denoising 작업에 딥러닝 기법을 적용한 최초의 시도로, 훈련 쌍은 가산 백색 가우시안 노이즈(AWGN)를 합성하여 생성되었습니다. DnCNN 이후, AWGN 노이즈 제거를 위한 여러 방법이 제안되었습니다. 예를 들어, FFDNet [37]은 noise map을 추가 입력으로 받아 이를 발전시켰습니다. AWGN 제거에서 우수한 성능을 달성하는 동안, 최근 연구는 노이즈 분포 간의 격차로 인해 실제 노이즈에 적용될 때 이러한 모델의 일반화 능력이 떨어진다는 것을 보여줍니다. 실제 이미지 노이즈 제거의 주요 장애물은 실제 노이즈-깨끗한 이미지 쌍의 부족입니다. 이를 위해, 신중하게 고려된 조건 하에서 일부 실제 노이즈 제거 데이터셋이 수집되었습니다. 이러한 데이터셋을 기반으로, 몇몇 방법은 실제 이미지 쌍에서 직접 네트워크를 훈련합니다. 상당한 성능에도 불구하고, 데이터 수집은 매우 비싸고 노동 집약적일 수 있습니다. 또한, 움직임이 포함된 복잡한 장면에서 깨끗한 이미지를 수집하는 것은 불가능합니다.

Unsupervised Image Denoising

또 다른 연구 방향으로는 noisy-image pair를 생성하는 방법과 노이즈 이미지에서 직접 훈련하여 noisy-image pair가 없는 상황에 초점을 맞춥니다.

Generating pseudo noisy-clean image pairs.
unpaired 노이즈 이미지와 깨끗한 이미지가 존재하는 상황에서, Generative 기반 방법들은 깨끗한 이미지에 실제 노이즈를 합성하여, 정렬된(aligned) 학습 데이터를 만들고, 이를 지도 학습 방법에 사용할 수 있도록 합니다. GAN에서 영감을 받은 GCBD는 Denoising network를 훈련하기 위해 realistic noisy image를 합성하지만, 이러한 방법의 성능은 노이즈 구성 요소를 정확하게 고려하지 못한다는 한계로 인해 제한됩니다. UIDNet은 자기 지도 노이즈 제거 네트워크의 증류된 지식과 합성 쌍에서 얻은 추가 정보를 결합하여 한 단계 더 나아갑니다.
C2N은 더 정확한 노이즈 합성을 위해 실제 시나리오의 다양한 노이즈 성분을 고려합니다. 그러나, 쌍으로 되지 않은 데이터 간의 격차를 다루는 것은 여전히 어렵습니다. 장면 분포의 불일치는 부정확한 생성을 초래하여 합성 데이터의 품질을 저하시킬 수 있습니다.

Generating pseudo noisy-noisy image pairs

Semi-supervised method인 Noise2Noise는 깨끗한 이미지 없이도 적용 가능한 훈련을 위해 여러 개의 노이즈 이미지를 사용합니다. 하지만 동일한 장면에서 여러 개의 독립적인 관측치를 획득하는 것은 여전히 실용적이지 않습니다. 따라서 여러 방법론들이 단일 노이즈 이미지로부터 (noise, noise) pair를 구성하고자 합니다. Neighbor2Neighbor는 단순화된 노이즈 가정을 바탕으로 두 개의 서브샘플링된 이미지를 생성합니다. 실제 이미지의 복잡한 노이즈 분포를 처리하기 위해 Noisier2Noise, NAC, R2R을 포함한 여러 방법론들이 제안되었습니다. 그럼에도 불구하고 이러한 방법론들은 사전 지식을 요구하거나 특정 제약 조건에 의해 제한되어 실제 상황에서는 비실용적일 수 있습니다. 구체적으로 Noisier2Noise는 노이즈/노이즈 쌍을 합성할 때 노이즈 분포를 필요로 합니다.NAC는 노이즈 수준이 상대적으로 약하다는 가정 하에 작동합니다. R2R 또한 노이즈 수준 함수(NLF) 및 이미지 신호 처리(ISP) 함수와 같은 추가 정보를 사용합니다.

Training directly on noisy images

또 다른 유형의 방법론은 self-supervised 방식을 따르며, 이는 노이즈 이미지를 직접 학습할 수 있고 가짜 이미지 쌍을 합성할 필요가 없습니다. Noise2Void와 Noise2Self는 해당 중심 픽셀을 마스킹하는 self-supervised blind-spot 전략을 제안합니다.Laine와 D-BSN은 advanced BSN 설계를 위해 추가로 제안되었지만, 컨볼루션 기반 아키텍처는 long-range dependencies 활용을 제한합니다. 블라인드 스팟으로 인한 정보 손실을 완화하기 위해 Blind2Unblind는 새로운 revisible loss term을 도입합니다. 불행히도 위에서 언급된 방법론들은 노이즈가 픽셀 단위로 독립적이라는 가정 하에 작동하므로, 공간적으로 상관된 실제 노이즈 하에서는 필연적으로 항등 매핑을 학습하게 됩니다. Real-image denoising을 향해, CVF-SID [25]는 깨끗한 이미지로부터 노이즈 구성 요소를 분리하지만, 노이즈가 공간적으로 상관되지 않는다고 가정하여 실제 노이즈 분포와 일치하지 않습니다. Asymmetric Pixel shuffle Downsampling BSN (AP-BSN)은 Pixel shuffle Downsampling(PD)과 CNN 기반 BSN을 결합합니다. 유망한 결과를 달성했지만, PD 연산을 이미지에 직접 적용함으로써 국소 구조가 손상됩니다. 서브샘플링된 이미지는 다양한 아티팩트, 예를 들어 앨리어싱 아티팩트 등으로 손상되며, 이는 큰 PD 스트라이드 계수 하에서 더욱 두드러집니다. 또한 CNN 기반 BSN을 채택하는 것은 제한된 Receptive field를 초래합니다. BSN은 이웃 픽셀을 기반으로 중심 픽셀을 복구하므로, 사용 가능한 이웃 픽셀이 적을수록 필연적으로 성능 손실이 발생합니다. 요약하자면, 이는 local 및 global context 모두에 대한 정보 활용이 부적절함을 초래합니다. 대신, 저희 방법론은 개선된 local 디테일 추출을 위한 danser sampling dentity로부터 이점을 얻고, enlarged Receptive field을 위한 distance pixel modeling 능력 또한 활용합니다.

🔹 Supervised Image Denoising 계열

연구	해결하려던 문제	제안한 해결 방법	한계점
DnCNN	딥러닝 기반 이미지 디노이징 부재	깨끗한 이미지에 AWGN 합성하여 noisy-clean pair 생성	합성 노이즈 ≠ 실제 노이즈 → 실환경 일반화 실패
FFDNet	노이즈 강도 변화 대응	Noise map을 추가 입력으로 사용	여전히 AWGN 가정, 실제 노이즈 대응 한계
Real noisy-clean datasets (SIDD 등)	합성 노이즈 한계	실제 noisy-clean 이미지 쌍 수집	데이터 수집 비용·시간 매우 큼, 동적 장면 불가

🔹 UnSupervised Image Denoising 계열 - (1) Generating pseudo noisy-clean image pairs

연구	해결하려던 문제	제안한 해결 방법	한계점
GCBD	unpaired 데이터로 supervised 학습	GAN 기반 realistic noise 합성	noise component를 정확히 모델링하지 못함
UIDNet	합성 데이터 품질 개선	self-supervised 지식 증류 + synthetic pair 결합	여전히 합성 노이즈 의존
C2N	noise modeling 정확도 향상	다양한 실제 노이즈 성분 고려	unpaired 데이터 간 분포 불일치 문제

🔹 UnSupervised Image Denoising 계열 - (2) Generating pseudo noisy-noisy image pairs

연구	해결하려던 문제	제안한 해결 방법	한계점
Noise2Noise	clean image 없이 학습	동일 장면의 여러 noisy image 사용	동일 장면 다중 관측 비현실적
Neighbor2Neighbor	단일 noisy image 활용	서브샘플링으로 (noise, noise) pair 생성	단순화된 노이즈 가정
Noisier2Noise	노이즈 분포 반영	기존 노이즈에 추가 노이즈 합성	노이즈 분포 사전 지식 필요
NAC	weak noise 환경	노이즈가 약하다는 가정 하에 학습	strong noise에서 실패
R2R	실제 노이즈 대응	NLF, ISP 정보 활용	추가 메타데이터 필요

🔹 Training Directly on Noisy Images (Self-supervised)

연구	해결하려던 문제	제안한 해결 방법	한계점
Noise2Void / Noise2Self	clean image 불필요	중심 픽셀 마스킹(BSN)	pixel-wise independent noise 가정, over-smoothing
Laine et al. / D-BSN	BSN 구조 개선	half-plane RF, advanced BSN	여전히 local receptive field
Blind2Unblind	마스킹으로 인한 정보 손실	revisible loss term 도입	large spatial noise에 취약
CVF-SID	실제 노이즈 분리	clean image 기반 noise component 분리	공간적 상관 노이즈 가정 불일치
AP-BSN	spatially correlated noise	Pixel Shuffle Downsampling + BSN	PD로 인한 구조 손상, aliasing, RF 제한

🔹 BSN 계열의 구조적 한계 요약

핵심 문제	설명
Blind-spot 제약	중심 픽셀을 보지 못해 정보 활용 제한
Local receptive field	장거리(global) 노이즈 상관 처리 불가
Pixel-wise 독립 가정	실제 노이즈와 분포 불일치
PD 기반 해결의 부작용	구조 손상, aliasing, stride trade-off

🔹 LG-BPN이 해결하고자 한 핵심 문제

구분	기존 방법 (CNN 기반 BSN + PD)	제안 방법 (LG-BPN)
국소(Local) 정보 활용	PD로 인해 샘플링 밀도 감소 → 미세 디테일 손실	높은 샘플링 밀도 유지 → 향상된 국소 디테일 추출
전역(Global) 정보 활용	제한된 수용장(receptive field) → 원거리 픽셀 관계 모델링 어려움	dilated receptive field, DTB → 원거리 픽셀 관계 효과적으로 모델링

기존 지도·비지도·자기지도 노이즈 제거 방법들은 노이즈 모델링, 데이터 수집, 또는 blind-spot 구조로 인한 근본적 한계를 가졌으며, 특히 BSN 계열은 local receptive field 제약으로 인해 long-range spatial noise correlationdmf 효과적으로 처리하지 못했습니다. 따라서 LG-BPN은 이러한 한계를 극복하기 위해 local 및 global blind-patch를 결합한 새로운 self-supervised denoising 프레임워크를 제안하고자 합니다.

Method

그림 2에서 LG-BPN의 전체 아키텍처를 설명하고, 이어서 본 논문의 동기를 상세히 설명하며, 두 가지 핵심 설계인 DSPMC와 DTB를 시연합니다.

Motivation and Modeling

단순한 Syntehtic noise 제거에서는 준수한 성능을 보이지만, 실제 노이즈는 강한 spatial correlation을 가지므로 self-supervised denoising 방법들의 성능은 실제 노이즈 환경에서 크게 저하됩니다. 이는 대부분의 최신 방법들이 기반으로 삼고 있는 노이즈는 Pixel-wise independent라는 가정을 쉽게 붕괴시킵니다. 이러한 방법들은 중심 픽셀의 깨끗한 신호는 주변 픽셀에 의존하지만, 노이즈는 독립적이라고 가정합니다. 따라서 실제 환경에서는 공간적으로 상관된 노이즈를 깨끗한 신호로 잘못 해석하게 되며, 그 결과 본래의 깨끗한 이미지를 복원하는 데 실패하게 됩니다. 기존 방법들은 이러한 상관관계를 완전히 무시할 경우 성능이 크게 저하되며, 부적절하게 고려할 경우에는 이미지 세부 정보 손실을 겪게 됩니다. 예를 들어, AP-BSN은 입력 이미지에 PD(Pixel shuffle Downsampling)를 적용함으로써 BSN의 핵심 가정을 만족시킵니다. Figure 3에서 볼 수 있듯이, PD는 공간적 상관관계를 끊는 데는 효과적이지만, 샘플링 밀도를 급격히 감소시킵니다. 이는 Nyquist–Shannon sampling theorem에 따라 미세한 디테일 추출을 심각하게 저해하며, 결과의 충실도는 샘플링 밀도에 비례함을 의미합니다. 또한 BSN은 이미 최신 성능 수준으로 개선되었음에도 불구하고, identity mapping을 방지하기 위해 마스크된 픽셀로 인해 receptive field가 제한된다는 본질적인 한계로 인해 잠재력이 크게 제약됩니다. 최근 제안된 advanced BSN 설계들에도 불구하고, CNN 기반 BSN은 local convolution 연산 특성으로 인해 long-distance dependencies를 충분히 모델링하지 못합니다. 이는 blind spot 주변에서 추론에 활용 가능한 이웃 픽셀의 수를 급격히 감소시켜, BSN의 성능에 부정적인 영향을 미칩니다.

본 연구는 이 두 가지 문제를 동시에 해결하는 것을 목표로 합니다. 먼저, sampling density 관점에서 detailed textures를 보다 효과적으로 추출하고자 합니다. Figure 3에서 보이듯이, DSPMC는 더 많은 이웃 픽셀을 활용하여 sampling density를 증가시키며, 이를 통해 복원 품질의 이론적 상한을 향상시킵니다. 둘째, 일반적인 Transformer를 blind 방식으로 변형하여 DTB를 도입함으로써, CNN 기반 BSN의 제한된 receptive field를 보완하는 강력한 global modeling 능력을 활용합니다.

이 두 가지 모듈을 기반으로, 본 논문의 전체 아키텍처를 소개합니다. Figure 2에서 보이듯이, LG-BPN은 local context와 global context 복원을 각각 담당하는 두 개의 병렬 branch로 구성됩니다. local feature extraction 분기에서는 9 × 9 DSPMC 모듈을 먼저 적용합니다. 조밀하게 추출된 특징들은 이후 spatial correlation을 끊기 위해 down-sampling 됩니다. 그 다음, feature map은 dilation이 2인 dilated convolution을 통과합니다. global branch에서는 입력 이미지가 먼저 더 큰 receptive field를 갖는 21 × 21 DMPMC 모듈을 통과한 후, DTB들에 의해 처리됩니다. 마지막으로, 두 branch에서 추출된 local 정보와 global 정보가 융합되어 최종 출력이 생성됩니다.

Densely-Sampled Patch-Masked Convolution

실제 노이즈를 다룰 때, 낮은 샘플링 비율을 사용하는 것과 모든 이웃 픽셀을 샘플링하는 것 모두 BSN에 있어 최적의 선택이 될 수 없습니다. DSPMC에서는 가능한 한 많은 local 정보를 추출하는 동시에, 강하게 상관된 이웃 픽셀로 인한 오해석을 방지하는 것을 목표로 합니다. 이를 위해, Figure 4에 나타난 것처럼 공간적 상관관계와 상대적 위치 간의 관계를 먼저 제시합니다.

[low sampling rate]이 무엇을 의미하는지 조금 더 자세히 보도록 하겠습니다. 먼저, Pixel-shuffle Downsapling은 stride를 기반으로 동작하게 됩니다. 이때, 공간 N을 $H\times W$ 로 표현할 수 있습니다. 여기서 Downsampling을 수행하면 $H : H // s$ 와 $W : W//s$ 이렇게 수행됩니다. 이를 공간 N으로 보면 $\frac{H\times W}{s^2}$ 으로 변하게 됩니다. 이를 수치로 예시를 들면 stride를 5로 수행하는 경우, $\frac{H\times W}{25}$ 가 되는데 이는, 25개의 픽셀이 1개로 줄어들게 됩니다. 즉, 원본 공간이 stride로 인해 공간 샘플이 줄어들게 됩니다. 즉, 유효한 pixel이 줄고, 그 결과 디테일 복원이 약해지는 문제가 발생하게 됩니다. 이를 low sampling rate이라고 말합니다.

기존 연구들을 따라, 이 관계를 표현하기 위해 Pearson’s correlation coefficient를 사용합니다. 구체적으로, SIDD medium 데이터셋에서 noisy image에서 clean image를 빼는 방식으로 noise map을 먼저 계산합니다. 그 다음, 상관 계수는 다음과 같이 계산됩니다.

ρ_{N_{cen}, N_{nei}} = \frac{cov(N_{cen}, N_{nei})}{σ_{N_{cen}} σ_{N_{nei}}}

여기서 $N_{cen}$ 과 $N_{nei}$ 는 각각 중심 픽셀과 이웃 픽셀의 노이즈를 의미합니다. Figure 4(a)에서, 예측에 활용할 수 있는 이웃 픽셀이 더 많이 존재함을 확인할 수 있습니다. 이 픽셀들은 중심 픽셀과 강하게 상관되지 않으므로, BSN에 오해석이 아닌 유용한 정보를 제공합니다. 이후, DSPMC 커널은 다음과 같이 계산됩니다.

K_{DSPMC} = K_n \odot Mask_{cor}

여기서 $K_{DSPMC}$ 는 DSPMC의 커널, $K_n$ 은 일반 convolution 커널, $Mask_{cor}$ 는 Figure 4(b)에 제시된 강하게 상관된 픽셀을 제거하기 위한 마스크를 의미합니다. 이러한 noise distribution prior를 샘플링 위치에 통합함으로써, 강하게 상관된 픽셀은 피하면서 더 많은 이웃 픽셀을 효과적으로 활용할 수 있습니다. 이는 추출된 특징이 더 많은 미세 디테일과 더 조밀한 receptive field를 포함하도록 만듭니다. 또한 Figure 3에서 보이듯이, 이미 고차원 특징에서 풍부한 local 디테일이 집약되어 있기 때문에, 이후 적용되는 feature-level PD는 기존 image-level PD보다 더 많은 유용한 정보를 보존할 수 있습니다.

[Image-level PD vs DSPMC 이후 feature-level PD] DSPMC로 만든 High-level feature가 이미 local detail을 잘 모아두었기에 PD로 인한 sampling density가 작아져도 Image-level에서 수행한 것보다는 성능이 좋음을 의미합니다. 이 때, Image-level에서 PD를 수행하는 경우 PD로 Sampling Density가 크게 줄고 local detail이 손상된 상태에서 Denoising을 수행합니다. 이로 인해서 복원에 필요한 정보를 너무 일찍 잃어버리기에 정보 손실이 큽니다. 하지만, DSPMC 이후 feature-level PD는 DSPMC로 추출한 Feature는 애초에 Feature vector 하나하나가 high-level feature를 담고 있기에 Sampling density가 낮아져도 정보 보존 능력이 더 우수합니다.

그러나 이 모듈을 그대로 적용하는 것은 최적의 선택이 아닙니다.

첫째, 추론 단계는 학습 단계보다 더 많은 디테일을 요구하므로, 동일한 아키텍처를 그대로 사용할 경우 고주파 디테일이 손상될 수 있습니다.
둘째, 큰 커널은 계산 비효율성을 초래할 수 있습니다.

Kernel shift strategy.

Figure 5(b)에서 보이듯이, 첫 번째 문제를 해결하기 위해 테스트 단계에서는 중심 픽셀에 더 가까운 local 디테일 정보에 집중하여 더 많은 세부 정보를 확보해야 합니다.

deformable convolution에서 영감을 받아, 각 위치마다 고정된 offset을 커널에 적용하여 커널이 중심부에 더 집중되도록 합니다.

y(p_0) = \sum_{k=1}^{K} w_k \cdot x(p_0 + p_k + \Delta p_k)

\Delta p_k = Ratio \cdot (p_k - p_0)

여기서 $K$ 는 커널 샘플링 위치, $w_k$ 는 커널 가중치, $x(p)$ 와 $y(p)$ 는 각각 입력 feature x와 출력 feature y에서의 위치 $p$ 의 특징, $Δp$ 는 적용된 커널 offset을 의미합니다. Ratio는 테스트 단계에서 커널을 얼마나 이동시킬지를 결정하는 계수입니다. 커널에 offset을 추가함으로써, 테스트 단계에서 커널을 축소하여 더 미세한 디테일을 포착할 수 있습니다.

Dilation in DSPMC

Figure 5(c)에서 보이듯이, 두 번째 문제를 해결하기 위해 convolution 커널에 dilation을 추가하여 계산 비용을 더욱 감소시킵니다.

이러한 sparsity는 특히 큰 커널 크기에서 DSPMC를 계산적으로 효율적으로 만들면서, 동시에 세부 구조를 포착하기 위한 조밀한 receptive field를 유지합니다.

Visualization of the extracted feature map

DSPMC 모듈이 더 조밀한 receptive field를 형성하고 local 고주파 구조를 더 잘 추출함을 검증하기 위해, feature map 시각화를 제시합니다. local extraction branch의 출력 feature와 AP-BSN에서의 대응 위치를 선택합니다. 모든 채널은 평균화 및 정규화되어 시각화됩니다. Figure 6에서 보이듯이, AP-BSN에서는 이웃 신호 활용이 충분하지 않아 local 미세 텍스처가 손상됩니다. 반면, 더 많은 이웃 픽셀을 활용함으로써, 제안하는 방법의 feature map은 더 선명한 경계와 더 많은 디테일을 보존합니다.

Dilated Transformer Block

BSN의 receptive field는 강제된 blind spot에 의해 제한되며, CNN 기반 BSN에서 사용되는 local operator는 전역 상호작용(global interaction)을 수집하는 것을 더욱 방해합니다. 그러나 이러한 특수한 blind spot 제약 하의 receptive field 조건에서는, 일반적인 Transformer block을 BSN에 직접 도입하는 것은 간단하지 않습니다. D-BSN에서 영감을 받아, 공간적으로 인접한 픽셀 간의 정보 교환이 발생하지 않는 Transformer block을 설계하고자 하며, 이는 DSPMC와 결합될 때 blind spot 요구 사항을 만족합니다.

이러한 요구 사항 하에서, Transformer의 두 가지 핵심 구성 요소인 self-attention 계산과 feed-forward layer의 설계를 신중하게 고려합니다. 먼저 self-attention layer의 경우, spatial-wise attention은 공간 정보 교환을 허용하므로, 본 논문의 receptive field 요구 사항을 충족하지 못합니다. 최근에는 grid-like self-attention이 이러한 요구를 만족할 수 있음이 제안되었으나, grid 패턴은 blind spot으로 인해 이미 축소된 receptive field를 더욱 좁히는 문제를 야기합니다. 대신, 공간 위치에 대한 인식 없이 전역적인 정보를 모델링할 수 있는 channel-wise attention을 채택합니다. 또한, 인접 픽셀의 정보 교환을 방지하면서 local context를 강화하기 위해, feature similarity를 계산하기 전에 dilated depth-wise convolution을 도입합니다. 입력 feature 𝑋에 대해, Query(Q), Key(K), Value(V) 행렬은 각각

Q=g^Q​(X),\ K=g^K​(X), \ V=g^V​(X)

여기서 $Q=g^Q(X),\ K=g^K(X), \ V=g^V(X)$ 는 dilated 3 x 3 depth-wise convolution을 의미합니다. Q, K, V 행렬이 주어지면, dot-product를 통해 channel 간 상호작용을 계산하며, 이때 attention map의 크기는 $R^{C \times C}$ 이고, C는 채널 수를 의미합니다. self-attention layer는 다음과 같이 표현됩니다.

Attention(Q, K, V) = V \cdot Softmax(KQ)

\hat{X} = Attention(Q, K, V) + X

여기서, $X$ 와 $\hat{X}$ 는 각각 입력 feature와 출력 feature를 의미합니다.

두 번째로 feed-forward layer의 경우, 1×1 convolution만 사용하면 인접 정보 교환을 간단히 회피할 수 있습니다. 그러나 이러한 방식은 local context를 포착하지 못하며, 이는 고주파 디테일 복원에 있어 치명적일 수 있습니다. 이를 해결하기 위해, feed-forward layer의 일반적인 3×3 convolution에도 dilation을 도입합니다. 이후, dilated depth-wise convolution으로 추출된 feature는 비선형성을 위한 gating unit을 통과합니다. 이 gating unit은 두 개의 병렬 경로의 element-wise 곱으로 구성되며, 그중 하나는 GELU 활성화 함수를 거칩니다.

G_1 = g_1(LN(X)), \ G_2 = g_2(LN(X))

\hat{X} = GELU(G_1)⊙G_2 + X

여기서 ⊙는 element-wise 곱을 의미하고, LN은 Layer Normalization을, $g_1(\cdot)$ , $g_2(\cdot)$ 는 3×3 dilated depth-wise convolution을 의미합니다. 추가적으로, 일반적인 3×3 convolution과 비교했을 때, 도입된 dilation은 receptive field를 더욱 확장하는 효과도 제공합니다.

도입된 global dependency의 효과를 검증하기 위해, Figure 7에서 제안 방법과 CNN 기반 BSN의 중심 픽셀 복원을 위한 receptive field를 시각화합니다. blind spot network에 long-range interaction을 주입함으로써, 제안하는 방법은 중심 픽셀 복원을 위해 더 많은 이웃 픽셀을 활성화할 수 있으며, 이는 기존 CNN 기반 BSN보다 더 넓은 receptive field를 제공함을 의미합니다.

(a) AP-BSN:
AP-BSN은 기존의 CNN 기반 BSN(Blind-Spot Network)입니다. 이 이미지에서 볼 수 있듯이, AP-BSN은 중앙 픽셀 주변의 매우 제한적인 영역(주로 바로 인접한 픽셀)만이 중앙 픽셀 복원에 기여하는 것을 보여줍니다.
이는 CNN의 국소적인 연산 특성과 블라인드 스팟(blind spot) 요구사항(중앙 픽셀 자체를 보지 않고 주변 픽셀로만 예측해야 하는 제약)으로 인해 수용장이 크게 제한되기 때문입니다. 즉, 사용할 수 있는 '단서'가 매우 적습니다.
(b) LG-BPN (Ours):
LG-BPN은 훨씬 더 넓고 분산된 수용장을 보여줍니다. 중앙 픽셀에서 멀리 떨어진 픽셀들, 심지어 대각선이나 비교적 떨어진 수평/수직 픽셀들도 중앙 픽셀 복원에 상당한 기여를 하고 있음을 알 수 있습니다.
이는 본 논문이 제안하는 Dilated Transformer Block (DTB)의 효과를 명확하게 보여줍니다. DTB는 CNN 기반 BSN의 한계인 제한된 수용장을 극복하고, 멀리 떨어진 문맥 정보(long-range dependencies)를 활용하여 중앙 픽셀을 예측할 수 있도록 설계되었습니다. 결과적으로 더 많은 주변 픽셀로부터 '단서'를 얻어 더 정확한 노이즈 제거가 가능해집니다.

Experiments

Dataset and Setup Details

SIDD 벤치마크 데이터셋 및 DND 벤치마크 데이터셋의 경우, 온라인 평가를 위해 웹사이트에 결과를 제출합니다. Smartphone Image Denoising Dataset (SIDD)은 다섯 개의 스마트폰 카메라로 촬영한 실제 노이즈 제거를 위한 페어 이미지를 포함합니다. 훈련을 위해 SIDD-Medium의 sRGB 이미지 320쌍을 사용합니다. 검증 및 평가를 위해 각각 SIDD 검증 세트와 벤치마크 세트의 sRGB 이미지를 사용합니다.

각각 1280개의 256 × 256 크기 패치를 포함하며, 검증 세트의 경우 그라운드 트루스 이미지도 제공됩니다. Darmstadt Noise Dataset (DND)은 벤치마킹을 위한 50개의 노이즈 이미지로 구성되어 있으며 그라운드 트루스가 제공되지 않아 온라인 제출 시스템을 통해서만 결과를 얻을 수 있습니다.

따라서 우리는 fully self-supervised 방식으로 진행하며 추가적인 외부 데이터 없이 테스트 세트에서 직접 우리의 방법을 훈련합니다.

항목	SIDD (Smartphone Image Denoising Dataset)	DND (Darmstadt Noise Dataset)
데이터 특성	실제 스마트폰 촬영 노이즈 이미지	실제 카메라 노이즈 이미지
촬영 장비	5개 스마트폰 카메라	고급 디지털 카메라
학습 데이터	SIDD-Medium sRGB 이미지 320쌍	❌ (학습 데이터 제공 안 됨)
검증 데이터	SIDD Validation set (sRGB, GT 제공)	❌
테스트 데이터	SIDD Benchmark set (sRGB)	DND Benchmark (50장)
패치 크기	256 × 256	256 × 256
패치 수	검증/평가 세트 각각 1280개	온라인 평가만 가능
Ground Truth 제공	검증 세트: ⭕ 벤치마크: ❌	❌
평가 방식	온라인 서버 제출	온라인 서버 제출
학습 방식	Fully Self-Supervised	Fully Self-Supervised
외부 데이터 사용	❌ 사용 안 함	❌ 사용 안 함

Training Details

이전 연구와 동일한 설정을 유지합니다. 구체적으로, 실험에서는 배치 크기 8을 사용합니다. 훈련을 위해 그라운드 트루스와 출력 간의 L1 손실을 사용합니다. 학습률은 1e-4에서 시작하며, Adam 옵티마이저를 사용합니다. 네트워크는 완전히 수렴될 때까지 20 에포크 동안 훈련됩니다. PyTorch 1.8.0으로 구현했으며, Nvidia RTX 3090에서 모델을 훈련했습니다. 방법들의 성능을 평가하기 위해 두 가지 지표, 즉 peak signal-to-noise ratio (PSNR)와 structural similarity (SSIM)를 사용합니다.

PSNR 및 SSIM 값이 클수록 더 나은 충실도를 의미합니다.

항목	설정
학습 방식	Fully Self-Supervised Learning
손실 함수	L1 Loss (출력 vs GT)
배치 크기	8
옵티마이저	Adam
초기 학습률	1 × 10⁻⁴
학습 에포크 수	20 epochs
구현 프레임워크	PyTorch 1.8.0
학습 GPU	NVIDIA RTX 3090

Evaluation of Real-world Denoising

본 논문에서는 실제 환경(real-world) 이미지 노이즈 제거에 대한 제안 방법의 효과를 검증하기 위해, 널리 사용되는 SIDD benchmark dataset과 DND benchmark dataset에서 실험을 수행합니다. Table 1에서는 SIDD와 DND benchmark dataset에서 다양한 방법들의 성능 비교 결과를 제시합니다. Table 1에 포함된 여러 방법들의 시각적 결과(visualization 결과)는 Figure 8과 Figure 9에서 확인할 수 있습니다. 제안하는 방법은 이전의 unsupervised 및 self-supervised 방법들보다, 정량적(quantitative) 지표와 정성적(qualitative) 지표 모두에서 더 우수한 성능을 달성합니다. unpaired clean-noisy 데이터를 사용해 학습되는 기존 unsupervised 방법들과 비교했을 때, LG-BPN은 학습용 쌍을 합성하기 위한 추가 데이터에 의존하지 않으며, 그 결과 장면 분포(scene distribution) 간의 불일치 문제 또한 회피할 수 있습니다. self-supervised 방법 중 NAC은 노이즈 수준이 약하다는 가정 하에서만 동작합니다. 반면 R2R은 추가적인 NLF(Noise Level Function)와 ISP(Image Signal Processing) 함수 없이는 sRGB 이미지에 직접 적용할 수 없으며, 이러한 추가 요구 사항들은 실제 환경(real-world) 상황에서 성능을 저하시킵니다. 이에 반해 LG-BPN은 이러한 가정이나 추가 정보에 제한받지 않으며, 실제 이미지에 직접 적용할 수 있습니다. 단일 noisy observation만을 활용하는 방법들 중에서,CVF-SID는 실제 노이즈가 갖는 강한 spatial correlation 특성을 고려하지 않기 때문에, Figure 8에서 보이듯이 실제 노이즈를 완전히 제거하지 못합니다. 또한 AP-BSN은 제한된 receptive field로 인해 샘플링 위치가 충분하지 않아, Figure 9에서 확인할 수 있듯이 세부 디테일이 흐려지는(blurring) 문제가 발생합니다. 반면 LG-BPN은 spatial correlation을 네트워크 설계에 신중하게 통합하며, 동시에 distant context dependency를 모델링함으로써, 기존 방법들의 한계를 효과적으로 극복합니다.

Analysis of the Proposed Method

Dilation factor in densely-sampled convolution.
densely-sampled convolution을 그대로 도입하는 것은 계산 비용이 매우 클 수 있습니다. 연산 효율성과 성능 간의 균형을 맞추기 위해, 저희는 기존 DSPMC에 dilation을 추가하여 컨볼루션 커널에 희소성(sparsity)을 도입합니다. 이는 receptive field는 유지하되, 실제 연산 포인트 수는 줄이는 것을 의미합니다. Figure 5(c)는 이러한 dilation 적용 방식을 시각적으로 보여줍니다.

성능과 효율 사이의 더 나은 trade-off를 찾기 위해, local 및 global feature extraction branch 모두에서 DSPMC의 dilation rate에 대한 ablation study를 수행합니다. Table 2(a)에 나타난 바와 같이, 9×9 DSPMC에는 dilation = 1, 21×21 DSPMC에는 dilation = 2가 가장 균형 잡힌 성능을 보입니다.

이러한 결과의 이유는 커널 크기의 차이가 서로 다른 스케일의 정보에 집중하도록 만들기 때문이라고 설명합니다. 이는 곧 dilation, 즉 sampling density에 대한 민감도가 커널 크기에 따라 달라진다는 의미입니다. 상대적으로 작은 9×9 커널은 local texture에 집중하므로, 여기에 dilation을 추가하면 sampling density가 낮아져 세부 구조 복원 능력이 눈에 띄게 저하됩니다. 반면 21×21 커널은 크기 자체가 크기 때문에 global context를 목표로 합니다. 따라서 21×21 DSPMC에 dilation을 적용해도 global 정보 추출 능력은 크게 손상되지 않으면서, 계산 비용은 효과적으로 감소시킬 수 있습니다.

The exploitation of local and global information.

LG-BPN은 두 개의 병렬 branch로 구성됩니다. 구체적으로, local context 처리를 위해 9×9 DSPMC + dilated convolution, global context 처리를 위해 21×21 DSPMC + DTB를 각각 결합합니다. 이러한 네트워크 구조의 타당성을 검증하기 위해, 구성 요소별 ablation study를 수행합니다. Table 2(b)는 서로 다른 구성 조합에 대한 성능 결과를 보여줍니다. 어느 branch에서든 9×9 또는 21×21 DSPMC를 제거하면 성능이 심각하게 저하됨을 확인할 수 있습니다. 이는 sampling density가 부족해지기 때문이며, Nyquist–Shannon sampling theorem에 따라 재구성 가능한 품질의 상한이 제한되기 때문입니다. 이는 충분히 촘촘하게 샘플링하지 않으면 복원이 원천적으로 불가능합니다. 이 경우 sampling density가 지나치게 희소해져, 입력 신호를 충분히 활용하지 못하게 됩니다. 이러한 성능 저하는 DSPMC 모듈이 필수적이며 효과적임을 반증합니다. 또한 local branch와 global branch에서 서로 다른 크기의 DSPMC를 사용하는 것이, 각각 서로 다른 스케일의 특징에 집중하도록 만든다는 점을 검증합니다. 이러한 스케일 차이는 각 스케일에 맞는 서로 다른 처리 방식이 필요함을 의미합니다. local branch에서 dilated convolution을 DTB로 대체하면, local connectivity 부족으로 인해 성능이 저하됩니다. local branch는 강한 국소 연결성(local continuity) 이 핵심이기 때문입니다. 반대로 global branch에서 DTB를 dilated convolution으로 대체하면, 네트워크는 순수 convolution 기반 구조가 됩니다. 이 경우 long-range interaction이 사라져, 복원 품질이 크게 제한됩니다. 이 경우 long-range interaction이 사라져, 복원 품질이 크게 제한됩니다. 즉, 작은 DSPMC를 활용한 convolution의 locality와 큰 DSPMC와 DTB를 활용한 global dependency를 동시에 활용함으로써, LG-BPN은 multi-scale context를 매우 합리적으로 활용하는 구조를 갖습니다.

The effect of kernel shift strategy.

픽셀 단위로 노이즈가 독립적이라는 요구 조건은 훈련 단계와 테스트 단계에서 서로 다르기 때문에, 훈련 단계에서 사용한 커널을 테스트 단계에 그대로 적용하면 이미지의 세부 정보가 손실됩니다.

훈련 시에는 blind-spot 조건을 강하게 만족해야 하지만, 테스트 시에는 노이즈 제거 후 최대한 많은 디테일을 복원하는 것이 목적이기 때문에 동일한 커널을 사용하는 것은 구조적으로 불리합니다.

이를 해결하기 위해, 본 논문에서는 Figure 5(b)에 나타난 kernel shift strategy를 제안합니다. Table 2(b)에서 확인할 수 있듯이, kernel shift를 적용하지 않으면 성능이 1.68 dB 감소하며, 이는 제안한 kernel shift 전략이 실제로 매우 효과적임을 입증합니다.

Coclusion

본 논문에서는 self-supervised real image denoising을 위해 LG-BPN (Local and Global Blind-Patch Network)을 제안합니다. 본 연구의 목적은 실제 노이즈의 공간적 상관관계를 거칠게 고려함으로써 발생하는 디테일 손실 문제와, Blind-Spot Network(BSN)의 고유한 receptive field 제약으로 인해 발생하는 global interaction의 부족 문제를 동시에 해결하는 데 있습니다. 먼저, 본 논문은 DSPMC (Dense Sampling Pixel Masking Convolution)를 제안하여 local 구조를 최대한 보존합니다. DSPMC는 기존 BSN 대비 더 조밀한 receptive field를 형성함으로써, 미세한 텍스처가 파괴되는 현상을 완화하고 이미지의 세부 정보를 보다 정확하게 복원할 수 있도록 합니다. 다음으로, 본 논문은 DTB (Distant Transformation Block) 를 제안하여, 기존의 CNN 기반 blind-spot network에 distant interaction을 주입합니다. BSN 계열 모델은 본질적으로 이웃 픽셀의 정보에 의존하여 중심 픽셀을 예측하므로, 더 많은 이웃 픽셀을 활성화할수록 더 풍부한 단서를 제공할 수 있습니다. DTB는 이러한 관점에서 distant pixel 간의 관계를 모델링함으로써, 기존 BSN이 처리하지 못했던 long-range spatial noise correlation을 효과적으로 활용할 수 있도록 합니다. Real-world 데이터셋을 대상으로 한 광범위한 실험 결과는, 제안하는 LG-BPN이 기존 방법들 대비 우수한 노이즈 제거 성능을 달성함을 입증합니다.

LG-BPN Contribution 정리

문제 정의: 기존 Self-supervised BSN의 구조적 한계 재정의

LG-BPN: Local and Global Blind-Patch Network이 출발하는 핵심 문제의식은 명확합니다.
기존 self-supervised image denoising, 특히 Blind-Spot Network(BSN) 계열이 실제 환경(real-world)의 노이즈 특성을 구조적으로 감당할 수 없는 한계를 갖고 있다는 점입니다.

기존 BSN 계열 방법들은 공통적으로 다음과 같은 이상적 가정을 전제로 합니다.

신호(signal)는 공간적으로 연속적이며

노이즈(noise)는 pixel-wise independent이고 zero-mean이다

그러나 실제 sRGB 이미지의 노이즈는 이 가정을 정면으로 위반합니다.
실제 노이즈는 방향성을 갖고, 넓은 공간 범위에 걸쳐 상관된 형태로 나타나며,
이는 단일 중심 픽셀을 마스킹하는 BSN 구조 하에서 주변 픽셀로부터 노이즈와 신호를 분리하기 어렵게 만듭니다.

그 결과, 기존 BSN은 두 가지 실패 양상을 보입니다.

공간적으로 상관된 노이즈를 신호로 오인 → 잔여 노이즈 발생

이를 억제하기 위한 과도한 평균화 → 텍스처 및 고주파 디테일 붕괴

즉, 본 논문은
“BSN의 한계는 학습 전략이나 깊이가 아니라, blind-spot을 구성하는 receptive field 구조 자체에 있다”
라는 문제 정의에서 출발합니다.

2. 기존 해결 시도의 한계: AP-BSN까지의 흐름

이러한 문제를 해결하기 위해 제안된 대표적인 방법이 AP-BSN입니다.
AP-BSN은 Pixel-shuffle Downsampling(PD)을 도입하여 공간적 상관관계를 인위적으로 약화시키는 접근을 취합니다.

그러나 AP-BSN은 본질적으로 PD stride라는 단일 하이퍼파라미터에 강하게 의존합니다.

stride를 키우면
→ 노이즈 상관은 줄지만
→ sampling density 급감 → aliasing, 텍스처 손실 발생

stride를 줄이면
→ 텍스처는 보존되지만
→ spatially correlated noise 제거 실패

즉, AP-BSN은 노이즈 제거와 구조 보존 사이의 trade-off를 구조적으로 해결하지 못한 채,
이미지 자체를 변형하는 간접적인 해결책에 머물러 있습니다.

LG-BPN은 바로 이 지점에서 문제를 재정의합니다.

“노이즈 상관을 끊기 위해 이미지를 변형할 필요가 있는가?”

3. LG-BPN의 핵심 아이디어: Blind-Spot을 Local + Global로 분해하자

LG-BPN의 가장 중요한 기여는
blind-spot이 반드시 local receptive field에만 머물러야 한다는 기존 가정을 폐기한 데 있습니다.

논문은 다음과 같은 관점을 제시합니다.

실제 노이즈의 공간적 상관은 local scale에서도 존재하고 global scale에서도 존재한다.

따라서 blind-spot 역시 local blind-patch, global blind-patch 로 분해되어야 한다

이 관점에서 LG-BPN은 “blind-spot의 위치”가 아니라 “blind-spot의 범위와 dnesity”를 재설계합니다.

즉,

노이즈 상관을 끊는 것은 픽셀을 버리는 문제가 아니라,
어떤 픽셀을 얼마나 조밀하게 활용할 것인가의 문제다

라는 발상입니다.

4. LG-BPN 아키텍처의 본질적 기여

LG-BPN은 위의 문제의식을 다음 두 가지 핵심 모듈로 구조화합니다.

(1) DSPMC: Sampling Density 관점의 Local Blind-Patch 설계

DSPMC(Densely-Sampled Patch-Masked Convolution)는
기존 BSN처럼 일부 픽셀만 사용하는 sparse sampling을 버리고,

노이즈 상관 통계(Pearson correlation)에 기반하여

강하게 상관된 픽셀만 제거하고 가능한 많은 이웃 픽셀을 조밀하게 활용하는 local blind-patch를 구성합니다.

이를 통해,

sampling density 감소로 인한 정보 손실을 방지하고
Nyquist–Shannon 관점에서 재구성 가능한 품질 상한을 높이며
PD 없이도 spatial correlation을 구조적으로 제어

할 수 있습니다.

또한,

dilation을 통한 계산 효율 확보
inference 단계에서 kernel shift 전략을 적용하여
학습 시 blind-spot 제약과
테스트 시 디테일 복원 목적 간의 불일치를 해소

하는 점은 현실적인 추론 품질까지 고려한 설계라는 점에서 중요한 기여입니다.

(2) DTB: Blind-Spot 제약 하에서의 Global Dependency 주입

LG-BPN의 두 번째 핵심 기여는
BSN에 Transformer를 “그냥” 넣지 않았다는 점입니다.**

논문은 blind-spot 조건을 만족하기 위해 다음을 엄격히 지킵니다.

spatial-wise attention ❌

인접 픽셀 간 직접 정보 교환 ❌

대신,

channel-wise self-attention을 사용하여
공간 위치와 무관한 global dependency를 모델링하고

dilated depth-wise convolution을 통해
blind-spot을 침범하지 않으면서 receptive field를 확장

합니다.

그 결과 DTB는,

CNN 기반 BSN의 구조적 한계였던
long-range interaction 부재 문제를 해결하면서도
blind-spot 제약을 엄밀히 만족하는
BSN 전용 Transformer block으로 기능합니다.

이는 기존 BSN 계열에서 사실상 처음으로 global context를 구조적으로 활용한 시도라고 볼 수 있습니다.

5. LG-BPN의 실질적 Contribution 요약

본 논문의 핵심 기여는 다음과 같이 정리할 수 있습니다.

Self-supervised real-world denoising에서
blind-spot의 한계를 local/global 관점에서 재정의한 문제 설정
Sampling density 관점에서 spatially correlated noise를 다루는
DSPMC 기반 local blind-patch 설계
Blind-spot 제약을 유지한 채
long-range dependency를 주입하는 DTB 제안
이미지 변형(PD)에 의존하지 않고도
local detail preservation과 global noise modeling을 동시에 달성
실제 sRGB 데이터셋(SIDD, DND)에서
self-supervised 방식으로 SOTA 성능을 달성

6. LG-BPN의 한계 및 향후 연구 방향

LG-BPN 역시 몇 가지 한계를 갖습니다.

DSPMC의 correlation mask는 사전 통계 기반으로 설계되며,
데이터 적응적으로 학습되지는 않습니다.
DTB는 channel-wise attention에 국한되므로,
spatial structure를 직접적으로 모델링하지는 않습니다.
BSN 계열의 근본 가정(conditional independence, zero-mean noise)은 여전히 유지됩니다.

이는 향후,

adaptive blind-patch learning
learnable correlation-aware masking
spatial-aware but blind-safe attention 설계

로 확장될 수 있는 여지를 남깁니다.

한 문장으로 정리한 LG-BPN의 본질

LG-BPN은 “blind-spot을 크게 만든 모델”이 아니라,
“blind-spot을 local과 global로 분해하여,
실제 노이즈의 공간적 상관 구조를 구조적으로 수용한 최초의 BSN 프레임워크”입니다.

이상으로 LG-BPN paper 리뷰를 마무리하도록 하겠습니다.

감사합니다🥲

dinoST

초시공! 태풍을 부르는 나의 공부

이전 포스트

LG-BPN: Local and Global Blind-Patch Network for Self-Supervised Real-World Denoising