[논문 리뷰] Large Language Models on Tabular Data - A Survey

김성윤(Jack)·2025년 12월 22일

Multimodal

논문 리뷰

목록 보기

14/29

1. 논문 정보

제목:
Large Language Models on Tabular Data – A Survey
학회/연도:
arXiv, 2024년 2월
내가 정의한 한 줄 요약:

“트리 기반 모델의 한계를 넘어, LLM의 추론 및 생성 능력을 정형 데이터에 이식하기 위한 전 과정을 체계적으로 정리한 바이블형 서베이.”

2. 한 줄 요약

LLM은 Tabular 데이터에서도 ‘쓸 수는 있지만’, 기존 전용 모델을 대체할 만한 범용 해법이라고 보기엔 아직 구조적으로 맞지 않는 부분이 많다.

3. 이 논문이 던지는 핵심 질문

이 논문의 출발점은 꽤 명확합니다.

“GPT류 모델이 텍스트에서는 압도적인데,
정형(Tabular) 데이터에서도 같은 패러다임이 통할까?”

이를 위해 저자들은:

LLM을 Tabular 문제에 적용하는 대표적인 접근 방식들을 체계적으로 분류
실제 성능, 비용, 안정성, 실무 관점에서의 장단점을 비교
기존 Tabular 전용 모델(GBDT, FT-Transformer 등)과의 구조적 차이를 분석

👉 모델 제안 논문이 아니라, ‘현 시점 정리 + 냉정한 평가’ 논문에 가깝습니다.

4. LLM을 Tabular에 쓰는 대표적 접근 방식 정리 (논문의 핵심)

논문에서 가장 가치 있는 부분은,
LLM + Tabular 접근을 크게 네 가지 패러다임으로 정리한 점입니다.

(1) Tabular → Text 변환 (Prompt 기반 접근)

각 row를 자연어 문장으로 변환

예:

Age: 45, Income: High, Education: Bachelor →  
"A 45-year-old person with high income and a bachelor's degree."

이를 LLM에 입력해 분류/회귀 수행

장점

구현이 매우 간단
Few-shot / Zero-shot 가능
레이블이 적을 때 빠른 프로토타입에 유리

한계

Feature 순서/표현 방식에 민감
숫자 관계(비율, 미세한 차이)에 취약
데이터 커질수록 토큰 비용 폭증

👉 논문은 이 방식을 “편리하지만 구조적 한계가 가장 큰 접근”으로 봅니다.

(2) Tabular + LLM Hybrid (Feature Encoder 결합)

Tabular feature를 별도의 encoder로 처리
LLM은 reasoning, aggregation, decision 역할

예:

Numeric / categorical → embedding
LLM은 최종 판단 또는 설명 담당

의미

LLM을 “전부 다 처리하는 모델”이 아니라
고수준 추론 모듈로 위치시킴

문제

구조가 복잡해짐
End-to-end 학습이 쉽지 않음
성능 개선이 일관적이지 않음

(3) In-context Learning 기반 Tabular 추론

학습 없이 예시 row들을 prompt에 나열
“이런 패턴이면 label은 이거야” 식의 추론

장점

학습 없이 빠른 실험 가능
데이터 적을 때 유용

한계

예시 선택에 극도로 민감
데이터가 조금만 커져도 불가능
재현성 낮음

(4) LLM을 Feature Engineer / 분석 도구로 사용

직접 예측 모델이 아니라:
- Feature 생성
- Rule 발견
- 데이터 설명
- 이상치 분석

👉 논문은 이 접근을 가장 현실적인 활용 방향 중 하나로 평가합니다.

5. 왜 LLM은 Tabular에서 구조적으로 불리한가? (중요)

이 논문의 가장 설득력 있는 부분입니다.

① Tabular 데이터는 순서 없는 집합

Column 간에는 문맥적 순서가 없음
하지만 Transformer는 순서/문맥에 최적화

→ 텍스트의 inductive bias가 오히려 방해가 됨

② 숫자 처리의 근본적 한계

LLM은 숫자를 “의미”가 아니라 “토큰”으로 처리
미세한 수치 차이, 스케일 변화에 취약

👉 GBDT가 강한 이유와 정반대 지점

③ 데이터 효율성 문제

Tabular 문제는 보통:
- 데이터 수 적음
- Feature 중요도 높음
LLM은 대량 데이터 + 약한 구조적 가정에 유리

6. 기존 Tabular 전용 모델과의 비교 (개인적 동의 포인트)

논문 결론에 상당 부분 공감되는 지점:

GBDT 계열
- 여전히 강력
- 적은 데이터에서 안정적
FT-Transformer류
- Tabular inductive bias를 잘 반영
- 숫자/범주형 처리에 특화

LLM은:

성능이 “나쁘진 않지만”
비용, 불안정성, 튜닝 난이도를 고려하면
대체재라기보다는 보조 도구에 가깝다는 평가

7. 실험 결과 해석 (논문 태도 자체가 중요)

이 논문은:

“SOTA 달성!” 같은 톤이 아님
오히려 케이스별로 잘 되는 상황 / 안 되는 상황을 구분

핵심 메시지:

“일부 데이터셋에서는 LLM이 경쟁력 있지만,
일관되게 기존 방법을 압도하지는 않는다.”

8. 이 논문의 진짜 가치

과도한 LLM 낙관론을 경계
실무 관점(비용, 안정성, 재현성) 포함
Tabular 문제의 본질을 다시 상기시킴

“LLM을 써야 할 이유”보다
“언제 쓰면 안 되는지”를 명확히 해주는 논문

9. 한계 및 아쉬운 점

새로운 모델 제안은 없음
실험 스케일이 아주 크지는 않음
최신 GPT 계열 반영은 제한적

10. 개인적인 결론 (공부 기록용)

Tabular은 여전히 구조가 중요한 영역
범용 모델이 항상 이기는 건 아님
LLM은
- Feature 분석
- 데이터 이해
- 설명 생성
  쪽에서 가장 빛남

👉 “LLM으로 Tabular를 정복한다”보다는
“Tabular 파이프라인에 LLM을 어디에 끼워 넣을 것인가”가 더 현실적인 질문

11. 이어서 보면 좋은 키워드

FT-Transformer / TabTransformer
GBDT + NN Hybrid
Neuro-symbolic reasoning
LLM-based feature discovery

김성윤(Jack)

AI 공부합니다

이전 포스트

[논문 리뷰] Large Scale Transfer Learning for Tabular Data via Language Modeling

다음 포스트