[Conference] 한국컴퓨터종합학술대회(KCC 2025) | 학부생 우수논문상 수상

이형준·2025년 8월 8일

2025 한국컴퓨터종합학술대회 (KCC2025) 7.2~7.4 제주 국제컨벤션센터(ICC 제주)
https://www.kiise.or.kr/conference/kcc/2025/

1. 학술대회

KCC2025(한국컴퓨터종합학술대회 2025)는 한국정보과학회(KIISE)가 주최하는 대표적인 정보과학·컴퓨터공학 분야 학술대회입니다. 올해는 “글로벌 디지털 리더십과 대한민국 컴퓨팅의 역할”이라는 주제로, AI 기반 지능정보사회에서 정보기술의 선도적 역할과 미래 방향성을 논의하는 자리를 제공합니다.

2. 연구 주제 및 준비 과정

연구 주제를 잡게 된 발단은 LG Aimers 5기와 6기에서의 경험에서 시작했습니다. 두 번의 LG Aimers 프로그램을 진행하며, ChatGPT에게 반복적으로 코드 생성을 의뢰하다 보니, 테이블 데이터의 컬럼들을 놀라울 정도로 잘 이해하고, 그럴듯한 feature engineering 코드를 자동으로 생성해 주는 걸 직접 체험했습니다.
그러다보니 자연스럽게 'LLM은 테이블 데이터의 feature engineer로서 큰 잠재력을 가지고 있을 것이다'라는 생각으로 이어졌습니다. 이후 이 아이디어를 실증해 보자는 동기에서 논문 주제를 정하게 됐습니다.

주제를 정한 후, 연구의 큰 줄기를 잡고 선행 연구들을 조사하기 시작했습니다. 예상대로, 제가 생각한 아이디어는 이미 많은 연구자들이 탐구한 영역이었고, 더 정교한 연구들이 존재했습니다. 예를 들어, CAAFE(2023)나 FeatLLM(2024)처럼 LLM을 피처 엔지니어링에 활용하는 접근이 있었으며, AutoML 도구들(TPOT, AutoGluon 등)도 피처 자동화 측면에서 발전해 온 바가 있었습니다. 그러나 이러한 연구들은 도메인 지식을 제한적으로 활용하거나, 피처 생성이 규칙 기반으로 한정되는 한계를 보였습니다.

이러한 선행 연구를 분석하며, 내 연구의 차별점을 어떻게 둘지 몇 주 동안 고민했습니다. 지도 교수님의 지도도 받으며, 최종적으로 두 가지 주요 차이점을 뒀습니다.

피처들의 임베딩과 메타데이터 간의 Dot-product Attention score를 계산하여, 의미적으로 중요한 컬럼을 선별하는 메커니즘을 도입했다.
메타데이터를 LLM이 피처 이름과 3-shot 예시만으로 자동 생성하도록 했다. 이는 LLM의 추론 능력을 활용해 태스크 설명, 피처 관계 분석 등을 문서 형태로 생성하는 방식으로, 기존 연구(Hollmann et al., 2023; Han et al. 2024)에서 암시적으로만 사용되던 메타데이터를 명시적이고 자동화된 형태로 발전시켰다.

또한, LLM의 semantic 정보를 효과적으로 활용해야 한다는 논리를 강화하기 위해 Few-shot learning 환경(예: 16-shot)을 설정했고, 여기에 FeatLLM에서 영감을 받은 feature-bagging 기법을 적용하였습니다.

성능 검증에 앞서, LLM을 활용한 Feature engineering의 장점을 1)높은 수준의 prior knowledge를 바탕으로한 Meta data 생성, 2) 자동화된 feature engineering 코드 작성 및 주석을 통한 설명력 확보로 제시했습니다.

이러한 과정을 통해, 최종적으로 LLM을 feature engineer로써 활용하여 feature engineering 과정을 자동화한 Few-shot Tabluar learning을 위한 Auto Machine Learning Framework를 제시할 수 있었습니다. 제안한 프레임워크는 7개의 공개 의료 데이터 세트에서 기존 AutoML 도구들(TPOT, AutoGluon, MLJAR, H2O, TabPFN) 대비 평균 F1-score 0.7626으로 우수한 성능을 보였습니다. 또한, 요소 제거 실험에서도 피처 증강과 메타데이터 추가가 성능 향상(베이스라인 대비 9.6%)에 기여함을 확인했습니다.

다음부턴 버전 정리를 좀 잘해야될듯...

논문 심사위원분의 평 중에 '메타데이터가 실질적으로 활용된다는 걸 보여줄 수 있으면 좋겠습니다'라는 말이 있었습니다.

'뭐 어떻게 해야 되지?, 메타데이터 예시를 넣으면 분량이 넘어가는데..'하며 고민하다가 ablation study를 하면 되겠구나라는 생각이 제출 마지막 날에 생각났습니다.

그래서 출판용 논문 제출 마지막 날에 실험을 막 돌리고 표 만들고 내용도 엄청 급하게 수정했던게 기억에 남습니다.
그래서 사진보면 출판용 논문은 23:59 제출인데, 23:47분까지 수정하고있었고 심지어 제출은 거의 마감 10분? 전쯤에 했던거로 기억합니다. ㅋㅋㅋㅋㅋ

3. 포스터 발표

포스터 만드는 과정은 별로 어렵지 않았습니다. 논문이 3페이지밖에 안되다보니 표랑 그림만 배치하고, 중요한 내용을 적당히 채워넣었습니다.
포스터 디자인이 상당히 예쁘게 나와서 연구실 분들이 공통 탬플릿으로 사용하였습니다 ㅎㅎ

포스터 인쇄물을 봤는데, 포스터 실험 결과에 % 숫자들을 잘못 넣은 걸 확인했습니다. 인화지에 인쇄를 해서 그 위에 수정하면 어떻게든 티가 날 수밖에 없었기 때문에 그걸 발견하고 멘탈이 완전히 나갔던게 제일 기억에 남습니다. 비행기 출발이 2일 남았는데 수정하기도 어려운 실수를 발견하니 손이 덜덜덜 떨렸습니다.

그래서 고민 끝에 결국 최대한 빠르게 숫자들을 수정하고, 하는 김에 마음에 안 들던 비문들과 줄글 내용도 모두 수정했습니다. 그리고 사비로 당일 인쇄되는 인쇄소 찾아가서 다시 출력했더니 마음이 편해졌습니다.

제주도로 날아가서 마지막 날에 발표를 했는데 생각보다 엄청 떨렸습니다. 그런데 포스터를 붙이고 한 분이 와서 설명해 달라고 하길래 5분 정도 이것저것 설명하다 보니 긴장이 싹 풀려버려서 좀 신기했습니다.

그 덕분인지 심사위원분께 설명을 엄청 잘했습니다. 진짜 인생에서 발표를 가장 잘한 5분이었다고 생각합니다. 심사위원분은 칭찬을 많이 해주시는 성격 같았는데, 감사하게도 논문의 구성과 논리가 깔끔하고 ablation study가 특히 마음에 든다는 코멘트를 해주셨습니다.

심사 전후로 5명 정도의 연구자분들께서 내 연구에 관심을 보이시고 설명을 부탁하셨습니다. 누군가가 내 연구에 관심을 가져주다니 묘하고, 뿌듯한 기분이였습니다.

그리고 figure를 너무 이쁘장하게 그려놔서인지 사람들이 오며가며 많이 쳐다보고 사진을 찍어갔습니다. 다음부터는 그림을 좀 간단하고 명료하게 그려야할 것 같습니다..

4. 학부생 우수논문상 수상

감사하게도 학부생 부문에서 우수논문상을 수상할 수 있었습니다.
사실 겉만 번지르르 하지, 부족함이 많은 논문이였는데 운이 좋게도 고평가를 받은 듯 합니다.

5. 회고

3쪽에 불과한 국내 학술대회 논문이었지만, 정말 값진 경험을 했다고 생각합니다. 주제를 생각하고, 논리가 부족하진 않은지 끊임없이 고민하고, 글도 초안의 모습은 전혀 볼 수 없을 정도로 퇴고를 많이 했습니다. 심지어 심사용 논문과 출판용 논문도 달라진 부분이 꽤 많았습니다.

힘든 일도 많았는데, 실험은 맨날 오류만 뱉어대지, 생각보다 성능이 안 나오길래 파라미터랑 모델 아키텍처를 이리저리 바꾸면서 다시 돌려야 했지, 과제랑 연구실 업무도 해야 되는데 제출 일자는 다가오지...
1월 중순에 주제를 잡고, 5월 초까지 실험과 논문 작성을 했는데 다른 대회나 공모전, 수업, 연구실 업무랑 모두 병행하려니 정말 죽을 맛이었습니다.

그래도 이런 경험들이 나중에 SCI를 쓰거나, 국제 학술 대회에 논문을 투고할 때 도움이 크게 될 것이라 생각합니다.
앞으로는 SCI나 국제 컨퍼 논문 투고를 목표로 열심히 살아야겠습니다.

이형준

이전 포스트

[Paper Review] Table Meets LLM: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study| 2024, ACM

다음 포스트