input : each tokenized discharge summary
Structure of DLAC

Description-based Label Attention
a. Discharge summary -> transformer-based encoder : E
b. Descriptions ICD-9 codes -> Word2vec : D
c. Attention Matrix : A = softmax(EU @ D^T)
d. contextual embedding matrix : C = E^T @ A

Classification
a. 위에서 도출해낸 C(label specific contextual embedding)를 FCN에 feed하고 sigmoid 함수를 적용함. Train과정에서 loss함수는 BCE를 사용함.
Transformer-based Encoders
a. DLAC는 Encode에 대해 agnostic하므로, 여러가지 transformer-based encoder를 사용하여 실험을 진행함.
b. BERT_BASE, hierarchical BERT_BASE, Longformer_BASE 세가지를 이용하여 실험을 진행.
c. Longformer 모델 같은 경우, 인풋 길이 제한의 한계를 극복할 수 있음.( by offering a sparsified self-attention mechanism ) (BERT => up to 512 tokens, Longformer => up to 4096 tokens)

Which transformer-based encoder is best suited for ICD-9 coding?
- LRC classifier와 접목시킨 transformer-based encoder 중 Longformer가 가장 우수한 성능을 냈는데, 이는 긴 문장이 대부분을 차지하는 discharge summaries를 길이 제한을 가진 BERT가 중요한 정보를 제대로 취하지 못함을 보여줌.
- H-BERT+LRC가 F1 Macro, Micro 모두에서 BERT+LRC보다도 좋지 못한 성능을 보였는데, 이는 k개의 청크를 mean pooling을 이용하여 집계하는 방법이 차선책이므로 모델이 입력에 대해서 풍부한 feature representations을 생성하지 못함을 시사함.
How does our proposed description-based label attention classifier perform on ICD-9 coding?
- Longformer+DLAC model이 ICD-9 coding에서 우수한 성능을 보여줌과 동시에, DLAC가 LRC보다 위에 시행했던 모든 실험에서 우수한 성능을 보임.
- 하지만, CNN-based model인 Joint-LAAT에 비해서는 낮은 성능을 보였고, TransICD와 같이 transformer-based architectures중 현존하는 가장 우수한 모델보다는 아주 미세한 차이로 낮은 성능을 보임.
- 이런 결과는 MIMIC-3-50 데이터는 큰 구조를 학습시키기에 충분히 큰 데이터를 가지지 않다는 사실에 기인함. 그렇기에 아직까지 Transformer-based model은 more lightweight CNN-based model에 성능이 미치지 못한다고 할 수 있음.
- 여기서 포인트는, DLAC는 encoder와 agnostic한 classifier이기 때문에, 다른 모델과 결합되어 성능을 향상 시킬 수 있음.
To which extent can the DLAC provide explainable predictions for ICD-9 codes?
- LRC와 다르게 DLAC는 attention scores을 이용하여 explainable predictions을 제공할 수 있음. 즉 DLAC는 각 ICD-9 code prediction에 대하여 상위 어텐션 스코어들을 다룰 수 있음.