데이터과학 분야에서 실무자들은 가능한 한 많은 Feature를 수집하고, 기존 Feature에서 새로운 Feature를 만들어내기도 한다. 이후, 모델링 단계에서 Overfitting을 막기 위해 자동화된 Feature Selection (FS)를 활용한다. 현재 존재하는 Tabular data의 FS 방법론 Benchmark들은 Feature selecor를 Downstream task 성능 기준으로 평가하지 않는다. 본 논문에서는 실제 Dataset과 생성한 불필요한 Feature를 이용해서 성능을 평가하는 Benchmark를 새롭게 마련하였다. 또한, 신경망에 대한 Lasso 기반 모델인 Deep Lasso를 제안하며 이는 손상되거나 Second-order Feature에서 유용한 feature를 골라날 때와 같은 어려운 문제상황에서 기존 기법보다 우수한 성능을 보인다.
Tabular data는 Machin learning 분야에서 널리 사용되고 실무자들은 사용 가능한 모든 feature를 포함하거나, 직접 feature를 추가하여 Tabular dataset을 구성함
이러한 경우, overfitting이 발생할 가능성이 크기 때문에 자동화된 Feature Selection (FS) 기법을 사용해서 특정 feature를 필터링하고 제거하는 과정을 거침
기존 연구에서는 전통적인 ML 알고리즘을 FS 기준으로 사용하거나, 전통적인 알고리즘을 Downstream model로 활용하기 위한 FS 기법들을 제안하고 평가 해왔음
그러나, 딥러닝 기반 모델이 Noisy features에 특히 과적합하기 쉽다는 점은 이미 잘 알려져 있으며 Tabular 신경망 모델을 위한 FS 기법을 체계적으로 평가한 사례는 아직 부족함
이에 따라 본 논문에서는 실제 데이터셋을 기준으로 선정된 Feature들의 성능을 평가하여 Tabular Deep learning에서의 Feature selection 방법론을 Benchmarking 함
또한, Deep Lasso 방법론을 제안함
Random Features - Gaussian 분포에서 noise를 sampling하고 이를 원래 데이터셋의 feature와 결합
Corrupted Features - 데이터셋의 원래 Feature에서 불필요한 Feature를 sampling하고 이를 Gaussian noise로 손상시킴. 또한, Laplace noise corruption 실험을 수행함
Second-Order Features - 원래 Feature 중에서 무작위로 선택된 Feature의 제곱인 가공된 Feature를 추가함