
tabluar 데이터
데이터가 행(row)와 열(column)로 구성된 표 형태의 데이터 (정형 데이터)
기존 딥러닝 모델은 이미지, 텍스트, 음성 데이터에서는 성공을 거두었지만, tabular 데이터에서는 여전히 결정 트리(Decision Trees, DTs) 기반의 모델이 여전히 주류를 이룬다.
반면, DNN은 정형 데이터에 사용하기엔 파라미터가 지나치게 많고, 적합한 inductive bias(귀납 편향) 설계가 어려워 종종 최적해 탐색에 실패하기 때문에 기피되는 경향이 많다. 즉, 결정 트리처럼 "단순한 규칙"을 학습하지 못하고, 필요 없는 복잡한 패턴까지 학습할 가능성이 크다.
위의 단점에도 불구하고, DNN은 다음의 이점이 있다.
TabNet은 정형 데이터에서 DT-based 모델과 DNN의 장점을 계승했다.
TabNet은 Encoder와 Decoder로 구성되어 있다.
Feature Transformer는 FC, BN, GLU 등으로 구성되어 연산을 수행하며, 두 가지 중요한 정보를 출력하는 모듈이다.

최종 Output으로 전달할 정보 (최종 출력 정보)
다음 스텝으로 전달할 정보 (공유 정보)
Shared across decision steps 부분에서 출력된 이 정보는 다음 Decision Step으로 전달됨
앞선 스텝에서 어떤 특성들이 이미 연산되었는지에 대한 정보를 제공하여, 다음 스텝이 새로운 특성에 집중할 수 있도록 도움. 이는 TabNet이 스텝별로 다른 특성에 초점을 맞추는 연산을 가능하게 함
GLU (Gated Linear Unit)
1. 선형 변환
- 먼저, 입력 벡터 x에 대해 두 개의 선형 변환을 수행
- 게이팅 (Gating)
- 두 번째 변환에 시그모이드 활성화 함수를 적용하여 게이트 값을 구함
- 이 때, 시그모이드는 0과 1 사이의 값으로 각 요소가 얼마나 "열릴지"를 결정
- 최종 출력
- 첫 번째 변환과 게이트 값을 곱한 후 더하므로써 요소별 곱을 취함으로써, 중요한 정보만을 선택하고 불필요한 정보를 걸러냄
Attentive Transformer는 Feature Transformer로 부터 받은 데이터에 대해 Attention Map을 출력해주는 역할을 하며, 이번 스텝에서는 어떤 정보에 초점을 맞출 것인지만 결정하는 역할을 한다.

입력 데이터를 처리하기 위해 FC와 BN을 적용
Prior Scales를 사용하여 이전 단계에서 선택되지 않은 특성의 중요도를 점차 감소시켜 새로운 특성을 탐색하도록 유도
Sparsemax는 희소성이 높은 Attention 분포를 생성하여 중요한 특성만 선택하며, 선택 결과는 Prior Scales를 갱신하여 다음 단계로 전달
*희소성(Sparsity): 많은 값이 0인 상태로, 소수의 값만 활성화되는 특성
이 과정에서 Prior Scales는 중복된 특성 선택을 방지하고, Sparsemax는 중요한 특성만 선택하도록 설계되어 TabNet의 특성 선택이 효율적이고 해석 가능하도록 만든다.
Sparsemax
확률 분포를 생성하는 함수로, softmax와 유사하지만, 차이점은 출력값 중 일부를 0으로 만드는 기능을 한다는 것
Softmax vs. Sparsemax
- Softmax는 모든 출력값이 0~1 사이이며, 중요하지 않은 값도 완전히 0이 되지 않으므로, 모든 특성에 영향일 미칠 수 있음
- Sparesmax는 일부 출력값을 0으로 만들어, 모델이 중요한 특성에 더 집중하게 하고, 나머지 특성들은 무시
Encoder는 데이터를 입력받아 풀고자 하는 문제에 맞도록 데이터를 재구성한다.

입력 처리
Feature Transformer
Attentive Transformer
Mask
Aggregation
Feature attributes
Decoder의 경우 각 단계별 feature transformer로 구성된다. 일반 학습에서는 Decoder를 사용하지 않지만 Self-supervised 학습 진행시 인코더 다음 붙여지며 기존 결측값 보완 및 표현 학습을 진행한다.

Encoded Representation
Feature Transformer
Reconstructed Features

Input features (tabular 데이터)
Feature Selection
TabNet은 입력된 feature 중 어떤 특징이 현재 단계에서 중요한지 선택
Sequential Attention 매커니즘을 사용하여 각 단계에서 가장 중요한 feature에 집중
예를 들자면, 첫 번째 단계에서는 "professional occupation"가 예측에 중요하다고 판단하여, occupation, education와 같은 특징을 선택하고, 선택되지 않은 특징은 다음 단계로 넘어가며, 이후 단계에서 새로운 중요한 특징을 고려
Input Processing
Feedback Mechanism
Aggregation of Information
Predicted Output

TabNet에서는 레이블이 없거나 결측치가 포함된 데이터셋에서 유용하게 사용할 수 있고, pre-training에도 사용할 수 있는 self-supervised learning을 제안한다. Encoder의 출력값을 입력받아 feature를 복원(reconstruct)하는 Decoder를 연결한 Autoencoder 구조이다.
TabNet은 다양한 데이터셋에서 기존 모델보다 우수한 성능을 보였다.

Forest Cover Type 데이터셋은 지리적 변수들을 기반으로 특정 지역의 삼림 덮개 유형을 분류하는 문제를 다루며, TabNet은 복잡한 하이퍼파라미터 튜닝 없이도 다양한 앙상블 모델을 기반으로 한 AutoML 시스템과 트리 기반 모델들을 초과하는 성능을 보여준다.

Poker Hand 데이터셋은 카드의 슈트(suit)와 랭크(rank) 속성으로 포커 손을 분류하는 문제를 다루며, TabNet은 다른 방법들보다 우수한 성능(99.2%)을 보인다.

Sarcos 데이터셋은 로봇 팔의 역동학을 예측하는 데 사용되며, TabNet은 이 데이터셋에서 작은 모델 크기로도 뛰어난 성능을 보이며, 모델 크기가 제한되지 않으면 테스트 MSE가 다른 모델에 비해 현저히 낮은 성과를 달성한다.

Higgs Boson 데이터셋은 힉스 보손 과정과 배경을 구별하는 분류 문제를 다루며, TabNet은 MLP보다 더 간결한 표현으로 성능을 향상시킨다.

Rossmann Store Sales 데이터셋은 정적 및 시간에 따라 변하는 특성을 이용해 매장 판매를 예측하는 작업으로, TabNet은 일반적인 방법들을 능가하며 시간 관련 특성(날짜)의 중요도가 높게 나타났다.
TabNet은 tabular 데이터를 위한 딥러닝의 새로운 가능성을 제시하며, 해석 가능성과 성능 모두를 제공하는 독창적인 모델이다. 비지도 학습의 성공적인 도입은 데이터 레이블링 비용이 높은 응용 분야에서 TabNet의 활용성을 높인다는 점에서 큰 의의를 가지고 있다.