기계 학습에서 tabular 데이터는 매우 흔하게 사용되며, 데이터 과학자들은 주로 가능한 모든 기능을 포함시키거나, 직접 새로운 기능을 만들어냅니다. 하지만 자칫 Noise Feature가 들어가게 되면, 모델이 과적합(overfitting)될 위험이 커지기 때문에, 이를 방지하기 위해 자동화된 feature selection 방법이 활용됩니다.
그러나 기존의 feature selection 방법들은 주로 전통적인 기계 학습 모델이나 합성 데이터셋에 초점을 맞추고 있어, 테이블형 딥러닝 모델에 적합한 기능 선택 방법의 연구는 부족한 상황입니다.
본 논문은 이 문제를 해결하기 위해, tabular 딥러닝 환경에서 기능 선택 방법을 벤치마크하고, 선택된 기능이 실제로 모델의 성능을 얼마나 향상시키는지 평가합니다. 특히, 최신 테이블 딥러닝 모델인 트랜스포머를 포함하여 다양한 실제 데이터셋과 여러 가지 불필요한 기능 생성 방법을 사용하여 실험을 진행했습니다.
또한, 본 논문은 기존 방법을 넘어선 새로운 기능 선택 방법인 'Deep Lasso'를 제안합니다. 이 방법은 신경망을 위한 라쏘(Lasso)의 변형으로, 입력-그래디언트를 기반으로 합니다. 실험 결과, Deep Lasso는 특히 손상된 기능이나 2차 기능과 같은 복잡한 문제에서 기존의 기능 선택 방법들보다 뛰어난 성능을 보여주었습니다.
본 논문의 주요 기여는 다음과 같습니다:
1. 실제 데이터셋을 포함하여 불필요한 기능, 손상된 기능, 중복된 기능이 포함된 도전적인 기능 선택 벤치마크를 구성했습니다.
2. 최신 테이블 트랜스포머 아키텍처를 포함한 다양한 기능 선택 알고리즘을 딥 테이블 모델의 다운스트림 성능을 기준으로 벤치마킹했습니다.
3. Deep Lasso라는 새로운 방법을 제안하여, 비정보적 기능에 대해 강건한 모델을 훈련시킬 수 있음을 입증했습니다. Deep Lasso는 가장 어려운 벤치마크 설정에서도 다른 기능 선택 방법보다 우수한 성능을 보였습니다.
본 논문은 테이블 딥러닝에서의 기능 선택의 중요성을 강조하며, 새로운 방법들이 실질적으로 어떻게 도움이 될 수 있는지를 보여줍니다.
기계 학습에서 테이블 데이터는 아주 흔하게 사용되며, 실제 응용 분야에서도 많이 다뤄지고 있습니다. 전통적으로 테이블 데이터는 결정 트리 모델, 특히 그래디언트 부스팅 결정 트리(GBDT) 같은 방법으로 분석되어 왔습니다. 하지만 최근 들어 딥러닝이 이 영역에서도 두각을 나타내기 시작했습니다.
특히 트랜스포머 기반의 테이블 아키텍처가 주목받고 있는데, 이는 기존 GBDT와의 성능 격차를 점차 좁혀가고 있습니다. 또한, 딥러닝의 발전 덕분에 self-supervised learning, transfer learning, few-shot learning, data generation 등 새로운 기능들이 테이블 데이터 분석에 도입되고 있습니다.
한편, 기계 학습에서 feature selection은 매우 중요한 과정입니다. 이는 모델의 성능을 극대화하는 데 중요한 역할을 하며, 이 과정의 자동화가 큰 관심을 받고 있습니다.
Feature Selection에는 크게 세 가지가 있습니다:
1) 필터 방법
이는 특정 학습 알고리즘을 고려하지 않고, 기능의 개별 특성을 기준으로 기능을 순위 매깁니다.2) 래퍼 방법
래퍼 방법은 알고리즘 종속적이며, 특정 기계 학습 알고리즘에 대해 최적의 기능 하위 집합을 찾기 위해 반복적으로 재훈련을 수행합니다.3) 임베디드 방법
임베디드 방법은 기능 선택 과정을 모델 훈련에 통합하여, 훈련 중에 가장 중요한 기능을 학습하도록 합니다. 전통적인 임베디드 기능 선택 방법으로는 라쏘(Lasso)가 있으며, 이 방법은 최근 딥러닝 모델에서도 적용되고 있습니다.
본 논문은 Deep Tabualr Model을 위한 Feature Selection의 방법의 광범위한 벤치마크를 제공합니다. 실제 데이터셋에서 다양한 불필요한 기능을 포함한 벤치마크를 구성하고, 고전적 방법부터 딥러닝 기반의 최신 방법까지 다양한 feature selection 방법을 평가합니다. 특히, 다운스트림 모델의 성능을 기준으로 기능 선택 방법의 효과를 측정함으로써, 딥러닝 모델에서 최적의 기능 선택 전략을 탐구하고자 합니다.
본 논문에서는 Deep Tabualr Model이 그래디언트 부스팅 결정 트리(GBDT)보다 잡음에 더 민감한지에 대해 탐구하고 있습니다.
최근 연구에 따르면, 테이블 신경망이 소규모에서 중규모 데이터셋(최대 10,000 샘플)에 대해 GBDT보다 더 민감하다는 결과가 있었습니다. 이 연구는 이 실험을 더 큰 데이터셋으로 확장하여, 딥 테이블 모델에 특화된 기능 선택 방법과 벤치마크를 동기 부여의 예로 제시하고자 합니다.
우선, 비정보적 기능이 테이블 신경망에 미치는 영향을 조사했으며, MLP와 FT-Transformer 모델이 비정보적 가우시안 노이즈 기능을 포함한 데이터셋에서 어떤 성능을 보이는지 평가했습니다.
그림 1을 보면, 세 모델의 성능과 데이터셋의 비정보적 기능 비율 간의 관계를 시각적으로 확인할 수 있습니다. 이전 연구와 유사하게, MLP 아키텍처는 평균적으로 XGBoost보다 비정보적 기능에 더 과적합되는 경향이 나타났습니다.
이는 Tabular Network에서 feature selection이 매우 중요하다는 점을 다시 한번 강조합니다. 흥미롭게도, FT-Transformer 모델은 XGBoost 모델만큼 잡음 기능에 대해 내성이 있는 것으로 보입니다. 그림 1의 파란색과 녹색 곡선의 기울기에서 이 점을 확인할 수 있습니다.
FT-Transformer 모델의 성능이 잡음 기능의 영향을 덜 받는 이유는 트랜스포머 아키텍처가 attention mechanism을 통해 비정보적 기능을 효과적으로 필터링할 수 있기 때문일 가능성이 큽니다. 이 관찰을 기반으로, 본 논문에서는 FT-Transformer의 attentin map 중요도를 활용한 feature selection 방법의 효과도 추가로 조사하였습니다. 이를 통해 deep tabular model에서 보다 효율적인 feature selection 방법을 제안할 수 있을 것으로 기대됩니다.
• 설명: 이 방법은 예측 변수와 목표 변수 간의 선형 의존성을 분석합니다. 분류 문제의 경우 ANOVA F-값을 사용하고, 회귀 문제의 경우 단변량 선형 회귀 테스트 F-값을 사용하여 피처를 선택합니다.
• 장점: 계산이 간단하며, 빠른 피처 평가가 가능합니다.
• 단점: 비선형 관계나 복잡한 상호작용을 고려하지 않으므로 제한적인 경우에만 유용합니다.
• 설명: Lasso는 L1 정규화를 사용하여 선형 회귀 모델의 희소성을 장려합니다. 희소 회귀 후, 모델에서의 계수 크기에 따라 피처를 순위 매깁니다.
• 장점: 피처 선택과 희소성 유도를 동시에 수행할 수 있습니다.
• 단점: L1 정규화는 일부 중요 피처를 완전히 제거할 수 있어, 중요하지만 작은 영향을 미치는 피처를 놓칠 수 있습니다.
• 설명: MLP (다층 퍼셉트론)에서 첫 번째 레이어의 파라미터에 대해 그룹 Lasso 패널티를 적용하여 피처를 순위 매깁니다.
• 수식:
• 장점: 다층 네트워크의 첫 번째 레이어에서 피처의 중요성을 평가할 수 있습니다.
• 단점: 레이어의 특정 가중치만 고려하므로, 전체 네트워크의 피처 중요성을 반영하지 못할 수 있습니다.
• 설명: Group Lasso 정규화의 확장으로, 각 그룹의 계수를 적응형 가중치 파라미터로 조정합니다.
• 수식:
• 장점: 피처의 중요성을 더 정교하게 평가할 수 있으며, 적응형 가중치로 인해 더 나은 희소성 유도 가능합니다.
• 단점: 계산이 복잡하며, 하이퍼파라미터 조정이 필요합니다.
• 설명: LassoNet은 피처 선택을 통합한 신경망 아키텍처입니다. 스킵(잔여) 레이어를 추가하여, 기능이 활성화된 경우에만 참여하게 합니다.
• 장점: 모델의 희소성을 직접 학습할 수 있으며, 피처 선택과 모델 학습이 통합됩니다.
• 단점: 아키텍처가 복잡하고, 특정 작업에 맞게 조정이 필요할 수 있습니다.
• 설명: 결정 트리의 앙상블을 이용하여 피처의 중요성을 측정합니다. 각 트리의 노드에서 기능을 사용하여 불순도를 감소시키는 정도를 측정합니다.
• 장점: 비선형 관계와 상호작용을 잘 처리하며, 안정성이 높습니다.
• 단점: 계산 비용이 높을 수 있으며, 트리 기반의 중요도 측정만 포함됩니다.
• 설명: XGBoost는 그래디언트 부스팅 결정 트리의 구현으로, 모든 분할에서 피처의 평균 이득을 계산하여 중요성을 측정합니다.
• 장점: 효율적이고 성능이 뛰어난 피처 중요성 측정 방법입니다.
• 단점: 과적합의 위험이 있으며, 하이퍼파라미터 조정이 필요합니다.
• 설명: FT-Transformer 모델에서 검증 세트를 통해 단일 순방향 패스를 수행하여 피처 중요성을 계산합니다. 모든 레이어와 헤드에서의 [CLS] 토큰의 평균 어텐션 맵을 사용합니다.
• 장점: 신경망의 어텐션 메커니즘을 활용하여 피처의 중요성을 평가할 수 있습니다.
• 단점: 모델이 복잡하고, 어텐션 맵의 해석이 어려울 수 있습니다.
• 설명: Deep Lasso는 딥 테이블 모델을 위한 Lasso의 일반화된 버전입니다. 입력 피처에 대한 손실의 그래디언트에 Group Lasso 패널티를 적용하여 피처의 희소성을 유도합니다.
• 수식:
• 장점: 모델의 입력 피처에 대한 그래디언트의 희소성을 통해 모델이 비정보적 피처에 강건해질 수 있습니다.
• 단점: 계산이 복잡하고, 딥러닝 모델에 대한 특수한 접근 방식이 필요합니다.
각 피처 선택 방법은 서로 다른 장점과 단점을 가지고 있으며, 특정 문제와 데이터에 따라 최적의 방법이 달라질 수 있습니다.