[논문 리뷰] Deep learning enabled semantic communication systems - 1편

이우준·2021년 10월 7일
0

Abstract

최근 기존의 통신 시스템에 포함되어 있던 모든 physical layer block 들을 합치기 위한 deep learning (DL) 기반 end-to-end (E2E) 통신 시스템이 개발되었고, 이는 joint transceiver optimization을 가능하게 한다.

한편 DL의 영향으로 natural language processing (NLP, 자연어 처리) 많은 양의 language text를 분석하고 이해하는 데 상당한 성공을 거두었다.

저자는 이 두 분야의 결과에 영감을 얻어, 통신 시스템을 semantic level에서 바라보는 새로운 관점을 제시하려 한다. 특히 논문에서는 text 전송을 위한 DL 기반 semantic communication system DeepSC 를 제안한다. DeepSC는 transformer 구조를 바탕으로, bit- 혹은 symbol-error를 줄이려던 기존의 통신과는 달리, 문장의 의미를 복원함으로서 semantic error를 최소화 하고, system capacity를 최대화 하는 것을 목표로 한다.

또한 DeepSC가 여러 통신 환경에서 적용될 수 있다는 것을 보장하고, model의 학습 과정을 빠르게 진행하기 위해 transfer learning이 사용된다. 마지막으로 저자는 semantic communication의 성능을 정당하게 측정하기 위해 sentence similarity라는 새로운 metric을 제시한다.

Semantic information의 교환을 고려하지 않았던 기존의 통신 시스템과 비교하면 제안한 DeepSC는 channel variation에 더 강력하고, 이후의 simulation에서 설명되는 바와 같이 특히 낮은 SNR 상황에서 좋은 성능을 얻을 수 있다.

Introduction

Shannon과 Weaver에 의하면, 통신은 다음의 세 가지 level로 분류할 수 있다.

  1. Transmission of symbols
  2. Semantic exchange of transmitted symbols
  3. Effects of semantic information exchange

첫 번째 level에서는 transmitter에서 receiver로의 성공적인 symbol 전송에 대해 고려하는데, 이때 전송 accuracy는 주로 bit나 symbol 단위로 측정된다.

두 번째 level은 transmitter에서 전송된 semantic 정보와 receiver에서 해석되는 의미에 대해 다루고, 이를 semantic communication 이라고 한다.

세 번째 level은, 결국 transmitter가 원하는 방식으로 특정 작업을 수행하는 receiver의 능력이라고도 바꿔 생각해볼 수 있는, 통신의 영향(effect)에 대해 다룬다.

지난 수십 년 동안, 통신은 transmitter에서 receiver로 어떻게 정확하고 효율적인 symbol 전송을 할 수 있을지에 (이는 bits로 측정) 대해 주로 집중했다.

한편, 1G에서 5G로 발전하면서 transmission rate은 크게 개선되었고, system capacity는 점차 Shannon limit에 가까워졌다. 최근에는 autonomous transportation, consumer robotics 등 새롭고 다양한 application들이 많이 등장했는데, 이러한 application들의 interconnection으로 인해 엄청난 양의 data가 zetta-bytes 단위로 생성될 것이다. 게다가 이러한 application은 제한된 spectrum 자원 하에, 더 낮은 latency를 요구하며 massive connectivity를 지원해야 한다. 이는 기존의 source-channel coding 방식으로 다루기에는 어려운 문제이다.

Semantic communication은 data의 의미를 추출하고, 필요없는 (관계없는) 정보를 걸러냄으로써 semantic domain에서 data를 처리할 수 있다. 또한 semantic communication은 low SNR 영역과 같은 매우 안 좋은 channel 환경에 강인할 것으로 기대되어, 높은 reliability를 필요로 하는 apllications에 적합하다. 이러한 요소들은 통신의 정확도와 효율성을 강화하기 위해 digital bits에 숨겨진 semantic meaning을 고려하게 함으로써 저자들로 하여금 intelligent communication system을 개발하고 싶도록 만들었다.

기존의 통신과는 달리 semantic communication은 전송 목표와 관련 있는 정보를 보내는 것에 초점을 둔다. 예를 들면 text 전송 task의 경우, 의미(meaning)가 필수 정보이고 표현(expression)은 불필요하다. (쉽게 말해 문장의 의미 전달이 중요하지 정확한 표현은 중요하지 않다는 말)

이렇게 하면 data traffic은 상당히 낮아질 것이므로, bandwidth (BW)가 제한되어 있거나 낮은 SNR 혹은 BER/SER이 높은 기존의 통신 시스템에 특히 유용한 시스템이 될 수 있을 것이다.

DL 기반 NLP와 통신 시스템의 최신 발전은, 저자에게 앞서 언급한 level들 중 두 번째 level의 통신을 구현하기 위한 semantic communication을 조사하도록 영감을 줬다.

고려된 semantic communication system은 주로 joint semantic-channel coding 및 decoding에 초점을 두는데, 이는 단순히 bits나 word sequence가 아닌 문장의 semantic 정보를 추출하고 encode 하는 것을 목표로 한다.

이러한 semantic communication system의 구성을 위해 저자는 다음과 같은 질문들에 직면한다.

Question 1: How to define the meaning behind the bits?
Question 2: How to measure the semantic error of sentences?
Question 3: How to jointly design the semantic and channel coding?

한편, 본 논문의 contribution 은 다음과 같다.

  • Transformer 구조를 기반으로 한 DeepSC framework를 제안한다. 이를 이용하면 text로부터 semantic information을 잘 뽑을 수 있고, noise에 강하다. 또한 channel noise와 semantic distortion (왜곡)에 잘 대처하기 위한 joint semantic-channel coding이 설계되었는데, 이는 앞서 언급한 Question 3 을 해결한다.

  • DeepSC의 transceiver는 semantic encoder, channel encoder, channel decoder, semantic decoder 로 구성된다. 또, semantic meaning을 이해함과 동시에 system capacity를 최대화 하기 위해서 receiver는 두 loss 함수로 최적화 된다: cross-entropy & mutual information. 마지막으로 semantic level에서 DeepSC의 성능을 정확하게 반영시키기 위해 새로운 metric을 제시하는데, (지금까지 언급했던) 이들은 Question 1Question 2 를 해결해준다.

  • 다양한 통신 시나리오에서 DeepSC를 적용할 수 있도록 만들기 위해 deep transfer learning이 사용된다. (Model의 re-training을 빠르게 하기 위함). Re-trained model을 이용하면 DeepSC는 다양한 knowledge input을 인식할 수 있고, distortion으로부터 semantic information을 복원할 수 있다.

  • Simulation 결과를 통해 DeepSC가 기존 통신 system의 성능을 뛰어넘고, low SNR 상황에서 system의 robustness를 개선시키는 것을 확인할 수 있다.

다음 part로 넘어가기 전, 이후의 설명에 사용될 notation을 정리하면 아래와 같다.

Notation :

  • Cn×m\mathbb{C}^{n \times m}Rn×m\mathbb{R}^{n \times m} 은 각각 size n×mn\times m 짜리 complex, real matrix 들의 set을 나타낸다.
  • Bold-font 변수는 matrix 혹은 vector를 의미한다.
  • xCN(μ,σ2)x \sim \mathcal{C}N(\mu,\sigma^2) 는 변수 xx가 평균이 μ\mu이고 covariance가 σ2\sigma^2 인 circularly-symmetric complex Gaussian distribution을 따른다는 것을 의미한다.
  • ()T(\cdot)^T()H(\cdot)^H는 각각 transpose와 Hermitian을 의미한다.
  • {}\Re\{\cdot\}{}\Im\{\cdot\} 는 각각 complex number의 실수부, 허수부를 의미한다.
  • ab\mathbf{a} \otimes \mathbf{b} 는 vector a\mathbf{a}b\mathbf{b} 의 inner product를 의미한다.

Related Work

이 part에서는 E2E physical layer 통신 시스템과 NLP에서 사용하는 DNN 기술들에 대해 간단히 알아볼 것이다.

E2E Physical Layer Communication Systems

통신 분야에서, DL 기반 E2E physical layer 통신 시스템에 대한 몇몇 선구적인 연구가 수행되어 왔다. E2E 시스템의 특징 중 하나는 DL의 autoencoder 구조를 사용하고, 기존의 block structure를 없앰으로써 마치 E2E 복원 (reconstruction) task를 하는 것처럼, transmitter와 receiver가 동시에 (jointly) 최적화 된다는 것이다. 이러한 E2E system의 성능이 BER 측면에서 uncoded BPSK와 Hamming coded BPSK 보다 좋다는 것이 증명되었다.

학습을 하는 동안 channel의 gradient가 사라지는 문제를 다루는 연구들도 여럿 있었다. (Channel이 unknown이라서 gradient backpropagation을 진행할 수 없기 때문이다) \Rightarrow 자세한 내용이 궁금하면 본 논문에서 찾아 직접 읽어보자!

Source의 type을 생각해보면, text나 image를 위한 joint source-channel coding의 목적은 digital bit를 복원하는 것보다는 receiver에서 바로 source information을 복원하는 것이다. 한편 BER 같은 기존의 metric으로는 system의 성능을 잘 반영할 수 없다. 그러므로 source information 복원의 정확도를 측정할 때에는 word-error rate과 peak signal-to-noise-ratio (PSNR)을 사용한다.

Semantic Representation in NLP

NLP의 main 목표는 syntax와 text를 이해하는 것으로, machine이 사람의 언어를 이해하게 만들어준다. 초기의 NLP 기술은 statistical model을 기반으로 발전했기 때문에 (즉, 특정 단어가 문장에서 어느 부분 이후에 나올 확률을 계산하는 방식) 긴 문장을 처리하는 데에는 어려움을 겪었다.

따라서 이러한 문제점을 해결하기 위해 많은 DL model들이 등장했고 (자세한 내용은 논문 참고), 최근 가장 일반적으로 사용할 수 있는 word representation (단어 표현) model은 bidirectional encoder representations from transformers (BERT) 이다.

Comparison of State-of-the-Art (SOTA) NLP Techniques

NLP task에 사용되는 neural network의 종류는 크게 세 가지이다: recurrent neural networks (RNNs), convolutional neural networks (CNNs), fully-connected neural networks (FCNs)

RNNs을 사용하면 language model은 효과적으로 전체 문장을 학습할 수 있고, syntax information을 찾아낼 수 있다. 하지만 긴 문장들에 대해서는 성능이 떨어지고, linear sequence structure 이기 때문에 parrallel computing capability가 부족하다. 즉, time-consuming 하다.

반면 CNNs는 parallel computing capacity에 강점이 있다. 하지만 이 역시 network를 깊게 쌓아도 긴 문장에 대한 semantic information을 추출하는 것에는 한계가 있다.

Transformer와 같은 attention mechanism을 접목한 FCNs based language model은, 다양한 NLP task에서의 성능 향상을 도울 수 있는 semantic information에 대해 더 많은 attention을 줄 수 있다. 주목할만한 점은 Transformer가 RNNs와 CNNs의 장점을 모두 갖는다는 것과 길이에 상관 없이, model이 문장을 이해하도록 만들 수 있는 self-attention mechanism이 적용되었다는 것이다.

Reference

Xie, Huiqiang, et al. "Deep learning enabled semantic communication systems." IEEE Transactions on Signal Processing 69 (2021): 2663-2675.

DeepSC - PyTorch Official code.

0개의 댓글