[논문 리뷰] Large Language Models on Tabular Data - A Survey

김성윤(Jack)·2025년 12월 22일

논문 리뷰

목록 보기
14/29

1. 논문 정보

  • 제목:
    Large Language Models on Tabular Data – A Survey

  • 학회/연도:
    arXiv, 2024년 2월

  • 내가 정의한 한 줄 요약:

    “트리 기반 모델의 한계를 넘어, LLM의 추론 및 생성 능력을 정형 데이터에 이식하기 위한 전 과정을 체계적으로 정리한 바이블형 서베이.”


2. 한 줄 요약

LLM은 Tabular 데이터에서도 ‘쓸 수는 있지만’, 기존 전용 모델을 대체할 만한 범용 해법이라고 보기엔 아직 구조적으로 맞지 않는 부분이 많다.


3. 이 논문이 던지는 핵심 질문

이 논문의 출발점은 꽤 명확합니다.

“GPT류 모델이 텍스트에서는 압도적인데,
정형(Tabular) 데이터에서도 같은 패러다임이 통할까?

이를 위해 저자들은:

  • LLM을 Tabular 문제에 적용하는 대표적인 접근 방식들을 체계적으로 분류
  • 실제 성능, 비용, 안정성, 실무 관점에서의 장단점을 비교
  • 기존 Tabular 전용 모델(GBDT, FT-Transformer 등)과의 구조적 차이를 분석

👉 모델 제안 논문이 아니라, ‘현 시점 정리 + 냉정한 평가’ 논문에 가깝습니다.


4. LLM을 Tabular에 쓰는 대표적 접근 방식 정리 (논문의 핵심)

논문에서 가장 가치 있는 부분은,
LLM + Tabular 접근을 크게 네 가지 패러다임으로 정리한 점입니다.

(1) Tabular → Text 변환 (Prompt 기반 접근)

  • 각 row를 자연어 문장으로 변환

  • 예:

    Age: 45, Income: High, Education: Bachelor →  
    "A 45-year-old person with high income and a bachelor's degree."
  • 이를 LLM에 입력해 분류/회귀 수행

장점

  • 구현이 매우 간단
  • Few-shot / Zero-shot 가능
  • 레이블이 적을 때 빠른 프로토타입에 유리

한계

  • Feature 순서/표현 방식에 민감
  • 숫자 관계(비율, 미세한 차이)에 취약
  • 데이터 커질수록 토큰 비용 폭증

👉 논문은 이 방식을 “편리하지만 구조적 한계가 가장 큰 접근”으로 봅니다.


(2) Tabular + LLM Hybrid (Feature Encoder 결합)

  • Tabular feature를 별도의 encoder로 처리
  • LLM은 reasoning, aggregation, decision 역할

예:

  • Numeric / categorical → embedding
  • LLM은 최종 판단 또는 설명 담당

의미

  • LLM을 “전부 다 처리하는 모델”이 아니라
    고수준 추론 모듈로 위치시킴

문제

  • 구조가 복잡해짐
  • End-to-end 학습이 쉽지 않음
  • 성능 개선이 일관적이지 않음

(3) In-context Learning 기반 Tabular 추론

  • 학습 없이 예시 row들을 prompt에 나열
  • “이런 패턴이면 label은 이거야” 식의 추론

장점

  • 학습 없이 빠른 실험 가능
  • 데이터 적을 때 유용

한계

  • 예시 선택에 극도로 민감
  • 데이터가 조금만 커져도 불가능
  • 재현성 낮음

(4) LLM을 Feature Engineer / 분석 도구로 사용

  • 직접 예측 모델이 아니라:

    • Feature 생성
    • Rule 발견
    • 데이터 설명
    • 이상치 분석

👉 논문은 이 접근을 가장 현실적인 활용 방향 중 하나로 평가합니다.


5. 왜 LLM은 Tabular에서 구조적으로 불리한가? (중요)

이 논문의 가장 설득력 있는 부분입니다.

① Tabular 데이터는 순서 없는 집합

  • Column 간에는 문맥적 순서가 없음
  • 하지만 Transformer는 순서/문맥에 최적화

→ 텍스트의 inductive bias가 오히려 방해가 됨


② 숫자 처리의 근본적 한계

  • LLM은 숫자를 “의미”가 아니라 “토큰”으로 처리
  • 미세한 수치 차이, 스케일 변화에 취약

👉 GBDT가 강한 이유와 정반대 지점


③ 데이터 효율성 문제

  • Tabular 문제는 보통:

    • 데이터 수 적음
    • Feature 중요도 높음
  • LLM은 대량 데이터 + 약한 구조적 가정에 유리


6. 기존 Tabular 전용 모델과의 비교 (개인적 동의 포인트)

논문 결론에 상당 부분 공감되는 지점:

  • GBDT 계열

    • 여전히 강력
    • 적은 데이터에서 안정적
  • FT-Transformer류

    • Tabular inductive bias를 잘 반영
    • 숫자/범주형 처리에 특화

LLM은:

  • 성능이 “나쁘진 않지만”
  • 비용, 불안정성, 튜닝 난이도를 고려하면
    대체재라기보다는 보조 도구에 가깝다는 평가

7. 실험 결과 해석 (논문 태도 자체가 중요)

이 논문은:

  • “SOTA 달성!” 같은 톤이 아님
  • 오히려 케이스별로 잘 되는 상황 / 안 되는 상황을 구분

핵심 메시지:

“일부 데이터셋에서는 LLM이 경쟁력 있지만,
일관되게 기존 방법을 압도하지는 않는다.


8. 이 논문의 진짜 가치

  • 과도한 LLM 낙관론을 경계
  • 실무 관점(비용, 안정성, 재현성) 포함
  • Tabular 문제의 본질을 다시 상기시킴

“LLM을 써야 할 이유”보다
“언제 쓰면 안 되는지”를 명확히 해주는 논문


9. 한계 및 아쉬운 점

  • 새로운 모델 제안은 없음
  • 실험 스케일이 아주 크지는 않음
  • 최신 GPT 계열 반영은 제한적

10. 개인적인 결론 (공부 기록용)

  • Tabular은 여전히 구조가 중요한 영역

  • 범용 모델이 항상 이기는 건 아님

  • LLM은

    • Feature 분석
    • 데이터 이해
    • 설명 생성
      쪽에서 가장 빛남

👉 “LLM으로 Tabular를 정복한다”보다는
“Tabular 파이프라인에 LLM을 어디에 끼워 넣을 것인가”가 더 현실적인 질문


11. 이어서 보면 좋은 키워드

  • FT-Transformer / TabTransformer
  • GBDT + NN Hybrid
  • Neuro-symbolic reasoning
  • LLM-based feature discovery
profile
AI 공부합니다

0개의 댓글