기존에는 tabular 데이터를 다룰 때 대부분 Gradient-Boosted Decision Trees (GBDT) 방법을 사용했지만, 최근 tabular 데이터를 위한 딥러닝 기술의 발전으로 DL(Deep Learning) 기반의 방법이 GBDT 방법과 유사하거나 더 좋은 성능을 보여주고 있음
이는 검색-증강(retrieval-augmented) 모델을 활용하여 보다 더 좋은 예측을 할 수 있게 되었기 때문.
여기서 검색 기반(retrieval-based) 방식이란 자연어 처리에서 주로 사용되는 방법인데, 특정 질문에 대한 답변(candidates)을 여러가지 뽑은 뒤에 그 중에서 가장 답변에 가까운 것을 뽑아 답변으로 채택하는 방식을 말함.
이를 Tabular 데이터셋에 적용한다면, target과 유사한 여러 샘플을 뽑아서 그 중에서 prediction을 하는 형식이라고 이해를 할 수 있음
검색 기반 방법을 사용하면 예측 성능을 향상시킬 수 있는 장점도 있지만, 부가적으로 purely parametric 방법(retrieval-free)에 비해 incremental learning이나 robustness에서의 성능 향상도 얻을 수 있다는 장점이 있음
추가로 GBDT 방법 대신에 DL 방법을 사용하면 domain adaptation, semi-supervised learning 등의 강력한 DL 방법을 적용하여 사용할 수 있는 장점이 있음
해당 논문에서는 새롭게 제안하는 TabR(Tabular Retrieval) 방법을 통해 여러 Tabular dataset 벤치마크에서 SOTA의 성능을 보여 줌.
- Tabular 데이터에 대한 새로운 Retrieval-Augmented 모델 제안.
- 기존의 GBDT 모델과 비교하여 새로운 벤치마크에서 우수한 성능을 보여줌.
- 기존의 Retrieval-Augmented 모델에서 사용되던 Attention mechanism을 수정하여 간단하고 효율적인 구조를 가짐.
Parametric tabular 딥러닝 모델은 딥러닝의 장점을 실제 tabular 데이터에 응용하고자 하는 연구임.최근 연구에서는 MLP와 유사한 backbone을 사용한 딥러닝 기반의 방법과, Transformer와 유사한 backbone을 가진 딥러닝 기반의 방법이 좋은 성능을 보여. 또한 continuous features에 대해서 임베딩 하는 새로운 방법 등을 적용함으로써 GBDT와 tabular DL 방법의 간극을 크게 줄이는데 성공함.
일반적으로 검색 기반 방법은 다음과 같은 순서로 진행함.
1) 데이터셋에서 input object와 관련성이 있는 샘플들을 검색
2) input object와 뽑힌 샘플(input과 관련있는)들을 함께 가공하여 input object에 대한 더 좋은 최종 예측을 가능하게 함.
가장 흔하게 사용되는 검색 기반 방식은 local learning paradigm이 있고, 가장 쉽게 적용할 수 있는 모델 중 하나는 k-nearest neighbors (kNN) 알고리즘이 있음
기존에 존재하는 검색-증강 기반 DL모델들은 성능이 simple-parametric 방법에 비해 조금 좋은 정도에 그.그리고 무거운 Transformer 같은 구조를 사용하면서 계산량이 증가하게 됨. 해당 논문에서 제시하는 방법은 이전의 연구들에 비해 단 한개의 single-head attention 모듈을 사용하고, 해당 모듈을 cutomize 하여 기존의 방법들을 뛰어넘는 성능을 보여줌.
본 논문에서는 binary classification, multiclass classification, regression 이라는 3가지 태스크에 대해 고려함
데이터셋은 train, test, valid 의 세 영역으로 나누었으며, validation 파트는 early stopping 과 하이퍼 파라미터 튜닝에 사용함
검색 기반의 방법을 사용할 때 사용되는 "candidates"는 훈련 데이터셋으로 부터 얻음
실험 시에는 적절한 앙상블 성능을 얻기 위해서 15개의 random seed를 사용해 겹치지 않는 3개의 그룹으로 나누어 각 그룹의 평균 성능을 계산하고, 3개의 그룹의 평균 성능으로 결과를 표시


Encoder 와 Predictor는 각각 위의 그림과 같은 구조를 가짐. 본 논문에서는 encoder, predictor에 대해서는 크게 수정하지 않고 위의 구조를 그대로 사용함.
Encoder의 앞에 있는 Input Module 은 feature normalization이나 one-hot encoding 같은 input processing을 담당함

1) Similarity Module:
2) Value Module:
TabR는 단번에 완성된 모델이 아니라, 점진적으로 개선된 모델임. 모델 설계 과정에서 여러 단계에 걸쳐 성능을 분석하고 개선하였음:



본 논문에서는 기존에 사용되던 검색 기반의 DL 방법을 가져와 Retrieval module(similarity module과 value module)을 개선하여 최적의 성능을 달성함.
Retrieval Candidate에 따른 최종 예측 성능 분석과 같은 새로운 분석의 기회도 제공함.
추후에는 검색 기반 방식의 효율성을 높이고, 수 백만개의 데이터도 처리할 수 있는 모델을 만드는 것을 future works로 제시
논문 출처 : https://arxiv.org/abs/2307.14338
Yury Gorishniy, Ivan Rubachev, Nikolay Kartashev, Daniil Shlenskii, Akim Kotelnikov, Artem Babenko. TabR : Tabular Deep Learning Meets Nearest Neighbors In 2023. ICLR 2024.