BLUR 된 이미지가 STAGE1에 들어가면, STAGE1, STAGE2를 거쳐 BLUR가 없어진 이미지가 나오게끔 하는 것이 이 네트워크의 구조이다.
STAGE1, STAGE2 가 있다. UNET과 비슷한 구조이고 DOWN-SAMPLING 2번, UP-SAMPLING 2번으로 이루어져 있다. 그리고 이 때, DOWN-SAMPLING과 UP-SAMPLING 에서 각각 두 개의 HIN BLOCK과 RES BLOCK이 쓰인 것을 알 수 있다.
HINET의 HIN BLOCK에서는 INSTANCE NORMALIZATION과 IDENTITY의 CONCATENATE를 사용한 것을 알 수 있고, DOWN-SAMPLING과 UPSAMPLING에서 오는 정보 손실을 피하기 위해 SAM과 CSFF를 이용하는 것을 알 수 있다.
예를 들어 이미지에서 얼굴을 인식하는 작업에서 SAM은 얼굴의 특징적인 부분(눈, 코, 입 등)에 더 많은 주목을 할 수 있도록 한다. 이를 통해 배경이 복잡하거나 조명이 좋지 않은 환경에서도 얼굴을 효과적으로 인식할 수 있다.
예를 들어, 이미지를 확대하는 과정에서 CSFF는 저해상도 입력에서 얻은 정보와 고해상도 입력에서 얻은 정보를 결합하여 이미지의 품질을 개선한다. 저해상도에서는 이미지의 전반적인 구조를 파악하는 데 유리하고, 고해상도에서는 세부적인 텍스처와 경계를 더 잘 파악할 수 있다.