📦 Progressive Neural Compression for Adaptive Image Offloading under Timing Constraints

Bard·2025년 6월 25일

RTCL

목록 보기

14/15

본 논문에서는 네트워크가 허용하는 데이터 전송량을 고려하여 분류 성능을 최적화하는 "open-loop" 솔루션에 집중합니다.

Classification Accuracy: 이미지 재구성이 아닌 분류 정확도를 목표로 해야합니다.
Encoding Efficiency: 이미지를 압축할 떄, 리소스 제약 조건을 고려하여 최소한의 계산 오버헤드가 발생해야 합니다.
Adaptation to different deadlines and varying bandwidth
: 대역폭이 감소하는 상황에서 우아한 성능 저하를 달성하면서 마감 기한까지 더 많은 데이터를 수신할수록 분류 정확도가 향상되어야 합니다.

다음 이미지가 인코딩될때까지 계속 이미지를 보낼 수 있다면, 데드라인 $d_i = t_i + T + t^f_i$ 까지 $\mathbf{z}_i$ 를 전송할 수 있습니다.
네트워크 대역폭 $b(t)$ 에 대해 데드라인까지 보낼 수 있는 총량은 $S_i = \int_{t_i+t^f_i}^{t_i + T + t^f_i} b(t) dt$ 로 계산됩니다.
따라서, 실제 전송되는 데이터 $\tilde{\mathbf{z}}_i$ 는 다음과 같이 나타납니다. $\tilde{\mathbf{z}}_i = \begin{cases} \mathbf{z}_i, & \text{if size}(\mathbf{z}_i) \leq S_i, \\ \text{truncate}(\mathbf{z}_i, S_i), & \text{otherwise.} \end{cases} \tag{1}$

디코더 $g_\phi$ 는 $\tilde{\mathbf{z}}_i$ 를 입력으로 받아 $\mathbf{y}_i$ 를 출력합니다.
$h$ 가 분류기이고, 분류 결과과 $a_i = h(\mathbf{y}_i)= h(g_\phi(\tilde{\mathbf{z}}_i))$ 라면, 추론 정확도 $R$ 은 ground truth $gt_i$ 에 대해 다음과 같이 정의됩니다. $R(a_i, gt_i) = \begin{cases} 1, & \text{ if } gt_i \in \{ \text{n most likely predictions} \}, \\ 0, & \text{ if } gt_i \notin \{ \text{n most likely predictions} \}. \end{cases} \tag{2}$

가변 대역폭 $b(t)$ 와 $T_d$ 에 의해 부과되는 데드라인 제약 조건 하에서 정확도를 최대화하는 인코더 및 디코더의 학습 가능한 파라미터, $\theta$ 및 $\phi$ 를 최적화하는 것입니다.

\theta, \phi = \arg \min_{\theta, \phi} \mathcal{L}(\theta, \phi) \tag{3}

여기에서 $\mathcal{L}(\theta, \phi)$ 은 이미지 재구성에 대한 손실함수를 의미합니다.
그러나, 이는 고정된 크기의 $\mathbf{z}$ 를 가정했을 때이므로, 우리는 다른 목적함수를 사용해야 합니다.
만약 $K \le M$ 개 채널만 수신했다면, 다음과 같은 목표를 세울 수 있습니다. $\mathcal{L}(\theta, \phi, K) = l(\mathbf{x}, g_\phi(\text{Concat}[\mathbf{z}_{[1:K]}; \mathbf{0}])) \tag{4}$
여기서 가능한 $K$ 를 모두 고려한다면 다음과 같은 multi-objective 최적화 문제를 정의할 수 있습니다. $\min_{\theta, \phi} \mathbb{E}_{x \sim X} [\mathcal{L}(\theta, \phi; 1), \mathcal{L}(\theta, \phi; 2), \ldots, \mathcal{L}(\theta, \phi; M)] \tag{5}$
그러나 여기에 closed-form 해는 없습니다.
따라서 다양한 bottleneck 차원 간의 trade-off를 고려하여 가능한 한 Pareto frontier에 가까운 해를 찾아야 합니다.

Unsupervised pretraining for image reconstruction
$\mathcal{L}(\theta, \phi, K) = \| x - g_\phi \left( \text{Concat} \left[ f_\theta(x)_{1:K} ; 0 \right] \right) \|^2 \tag{6}$
이 자기지도 학습단계는 AE 파라미터 $\theta, \phi$ 가 잠재적인 대상 머신 러닝(ML) 서비스에 적응할 수 있는 일반화 가능한 상태로 준비합니다.
Knowledge Distillation for Inference
$\mathcal{L}(\theta, \phi, K) = \text{CE}(h(\mathbf{x}), h(g_\phi(\text{Concat}[f_\theta(\mathbf{x})_{[1:K]}; 0]))) \tag{7}$
지식 증류 동안, 서비스 모델 $h(x)$ 는 파라미터가 고정된 블랙 박스로 취급되며, AE 파라미터인 $θ$ 와 $\phi$ 만 업데이트됩니다.

추가적인 $\mathbf{z}$ 압축을 위해, PNC는 다음과 같은 두 가지 방법을 사용합니다.

Quantization
1. Model Quantization: PNC는 모델 파라미터를 양자화하여 모델 크기를 줄입니다.
2. Feature Quantization: PNC는 데이터의 0~255 값을 64개의 값으로 양자화합니다. 이는 데이터 크기를 3/4로 줄입니다.