“AGATa는 Tabular 데이터에서 효과적인 contrastive learning을 위해,
모델 입력 단계에서 self-attention 기반으로 중요도가 낮은 feature를 선택하고,
CLS 토큰이 각 feature에 부여한 attention score를 기준으로
masking·shuffling·CutMix 등의 dynamic augmentation을 적용해
의미적으로 일관된 입력 변형을 생성하는 기법이다.”
Contrastive learning은 대표적인 Self-Supervised Learning(SSL) 방법으로서 서로 비슷하지만 변형된 두 view를 만들어 긍정 쌍(positive pair)을 형성하는 것이 핵심입니다.
이미지/텍스트처럼 명확한 구조가 없는 Tabular 데이터는 augmentation을 만드는 것이 까다롭고, 무작위로 입력을 변형하면 feature 간 상호작용이 왜곡될 위험이 큽니다.
이 논문은 Tabular 도메인에서의 contrastive learning 성능 개선을 위해 다음을 주장합니다:
“augmentation은 무작위가 아니라, 입력을 해석하는 모델의 관점(attention)을 기반으로 해야 한다.”

AGATa 프레임워크는 크게 다음 흐름으로 구성됩니다:

선택된 low-importance feature에 대해 무작위로 masking, shuffling, CutMix 중 하나를 적용:
이 변형은 같은 샘플로부터 생성된 augmented view를 원본과 긍정 쌍으로 만들어 contrastive 학습에 활용됩니다.

Tabular 데이터는 피처 간 semantic 관계가 뚜렷하지 않기 때문에 어떤 feature를 변형해야 좋은 view가 되는지 모호합니다. 이를 해결하기 위해, AGATa는 Transformer self-attention score를 다음과 같이 활용합니다:
즉, 중요 feature는 보존하고, 덜 중요한 feature만 변형함으로써 의미 있는 변형을 유도합니다.
고정된 augmentation 방식을 쓰지 않고, epoch마다 무작위로 세 가지 방법을 섞어 사용함으로써 아래 효과를 의도합니다:
생성된 positive pair는 Transformer + projection head(MPL)를 통해 embedding space로 변환되며, InfoNCE loss로 학습됩니다.
이 과정은 representation이 유사한 입력을 가깝게, 다른 입력을 멀리 두도록 유도합니다.
AGATa의 본질은 다음 세 가지 관점을 동시에 만족시키는 설계입니다:
결과적으로, tabular 데이터의 구조적 한계를 보완한 contrastive view 생성 전략을 제시합니다.
AGATa는 아래와 같은 성능 개선을 보였습니다:
또한 High-attention feature를 대상으로 augmentation을 할 경우(Reverse variant) 성능이 떨어지는 ablation study도 보고돼,
“중요 feature 보존”의 필요성을 실험적으로 뒷받침합니다.
✅ Feature별 중요도 기반 augmentation
→ 의미 없는 noise를 줄이면서 contrastive view 생성
✅ 동적 augmentation strategy
→ 단일 augmentation보다 일반화 성능 향상
❗ Transformer 기반 attention을 전제
→ 모델 구조 의존적임
❗ Augmentation 기법이 mask/shuffle/CutMix 범위로 제한됨
→ 더 advanced augmentation(learned)에 대한 비교 필요
❗ 실험 범위가 표준화된 대규모 benchmark까지는 아님
AGATa는 Tabular contrastive learning에서 augmentation 설계의 근본 문제에 정면으로 접근한 흥미로운 연구입니다.
특히 “attention을 augmentation guide로 쓰는 것”은 매우 직관적이면서도 효과적인 전략이며, Tabular data 특유의 feature 편중 문제를 해결하는 하나의 답으로 보입니다.
이 접근은 향후 다른 Self-Supervised/Weakly Supervised framework에도 확장 가능하며, 기존 SSL에서 흔히 쓰는 무작위 입력 변형을 넘어선 방향성을 제시합니다.