기존의 테이블 데이터 특성 선택 벤치마크는 다음과 같은 문제점이 있음:
이 연구에서는 테이블 데이터를 처리하는 딥러닝 모델(특히 Transformer 기반 모델)에 대한 새로운 특성 선택 벤치마크를 만들고, 여러 특성 선택 기법을 비교함.
연구의 주요 기여는 다음과 같음:
기존 연구에서 딥러닝 모델(MLP, Transformer 등)은 테이블 데이터에 적합한가? 라는 질문이 꾸준히 제기됨.
특히, 딥러닝 모델이 노이즈가 많은 데이터에서 Gradient Boosted Decision Trees (GBDT)보다 더 취약한가? 에 대한 검증이 필요함.
최근 연구에 따르면, 작은 규모의 데이터셋(10,000개 샘플 이하) 에서 딥러닝 모델(MLP, Transformer 등)은 GBDT보다 노이즈에 취약하다고 보고됨.
이 논문에서는 더 큰 데이터셋을 사용하여 이 가설을 검증하고, 실험적으로 특성 선택(feature selection)의 필요성을 강조하려 함.
Multi-Layer Perceptron (MLP)
FT-Transformer (Feature Tokenizer Transformer)
GBDT (XGBoost)
원본 데이터에 랜덤 노이즈 특성(random noise features) 을 추가하여, 모델들이 불필요한 특성을 얼마나 잘 무시하는지 평가함.
MLP, FT-Transformer, XGBoost 모델을 학습시키고, 특성 중 노이즈 비율을 조절하면서 성능을 비교함.
성능 평가는 다음과 같이 진행됨:
분류(Classification): 정확도(Accuracy)
회귀(Regression): RMSE (Root Mean Squared Error, 낮을수록 좋음)


논문에서 제시한 Figure 1(실험 결과 그래프)을 요약하면:
MLP 모델은 노이즈에 매우 취약
GBDT (XGBoost)는 가장 안정적
FT-Transformer는 비교적 강건하지만 완벽하지 않음
이 연구에서는 기존 연구와 차별화하여, 단순한 랜덤 노이즈가 아니라 더 현실적인 방법으로 불필요한 특성을 추가함.
랜덤 노이즈 특성(Random Features)
기존 연구들과 동일하게, 가우시안 노이즈(Gaussian Noise)를 추가하여 모델이 불필요한 특성을 얼마나 잘 제거하는지 평가.
가장 기본적인 특성 선택 평가 방법.
손상된 특성(Corrupted Features)
기존 특성 중 일부를 복사한 후, 랜덤 노이즈를 추가하여 변형한 특성을 만듦.
예: 원본 특성이 X라고 하면, X + 노이즈 형태의 특성을 추가.
실제 데이터에서 흔히 발생하는 문제(센서 오류, 데이터 전처리 오류 등)를 반영함.
2차 특성(Second-Order Features)
기존 특성들 간의 곱(product) 을 새로운 특성으로 추가함.
예: X1, X2 → X1 * X2 형태의 새로운 특성을 생성.
이 방식은 데이터 과학자들이 직접 새로운 특성을 만들 때 흔히 사용하는 기법(feature engineering) 을 모사함.

랜덤 노이즈 특성이 포함된 경우
XGBoost와 Random Forest가 가장 좋은 성능을 보임.
랜덤 노이즈는 대부분의 알고리즘이 효과적으로 제거 가능함.
손상된 특성이 포함된 경우
XGBoost와 Deep Lasso가 우수한 성능을 보임.
전통적인 Lasso 기반 방법들은 손상된 특성을 잘 걸러내지 못함.
2차 특성이 포함된 경우
Deep Lasso가 가장 우수한 성능을 보임.
기존 방법들은 2차 특성을 걸러내지 못하고, 오히려 원본보다 더 높은 중요도를 부여하는 경향이 있음.
이는 기존 특성 선택 기법들이 비선형 관계를 반영하지 못하는 한계 때문임.
이 연구는 딥러닝 기반 테이블 모델에서 특성 선택(feature selection)이 얼마나 중요한지를 실험적으로 분석하고, 기존 방법들의 한계를 극복하는 새로운 기법(Deep Lasso)을 제안했다. 연구의 핵심 기여는 다음과 같다:
현실적인 특성 선택 벤치마크 구축
딥러닝 모델에서 특성 선택의 중요성 검증
새로운 특성 선택 기법(Deep Lasso) 제안
Lasso 기반 방법(Lasso, Adaptive Group Lasso, LassoNet 등)
- 기존 선형 모델에서는 효과적이지만, 딥러닝 모델에서는 충분히 효과적이지 않음.
- 특히 손상된 특성(Corrupted Features)과 2차 특성(Second-Order Features)을 효과적으로 제거하지 못함.
트리 기반 방법(Random Forest, XGBoost)
- 랜덤 노이즈가 포함된 데이터에서는 강력한 성능을 보임.
- 하지만 손상된 특성과 2차 특성에는 여전히 한계가 있음.
FT-Transformer의 Attention Map 기반 방법(AM)
- 랜덤 노이즈를 걸러내는 데는 효과적이지만, 손상된 특성과 2차 특성에 대해서는 한계를 보임.
- Transformer의 어텐션(attention) 메커니즘이 일부 특성 선택 역할을 하지만 완벽하지 않음.
Deep Lasso의 뛰어난 성능
- 모든 실험에서 안정적인 성능을 보였으며, 특히 2차 특성이 포함된 환경에서 가장 좋은 성능을 기록.
- 기존 특성 선택 기법들이 비선형 관계를 제대로 반영하지 못하는 문제를 해결함.

각 특성 선택 방법이 어떤 방식으로 특성을 선택하는지 비교하기 위해 상관관계 분석을 수행했다.
Random Forest와 XGBoost는 매우 유사한 특성을 선택
Lasso 기반 방법들(Lasso, 1L Lasso, Adaptive Group Lasso)은 서로 높은 상관관계를 보임
Deep Lasso는 기존 Lasso 기반 방법과 비슷한 특성을 선택하지만, 성능이 훨씬 우수함