[논문 리뷰] Can Large Language Models Replace Data Scientists in Biomedical Research?

soyoung·2025년 6월 29일

0

0. 논문 개요

이 논문은 생물의학 연구에서 대규모 언어 모델(LLM)이 데이터 과학자를 대체할 수 있는지에 대한 연구이다. 연구자들은 BioDSBench라는 실제와 유사한 데이터셋을 구축하여 LLM의 코딩 및 데이터 분석 능력을 평가했다. 결과는 자동 프롬프트 생성, 검색 증강 생성(RAG), 자체 성찰과 같은 전략이 LLM의 성능을 향상시키는 데 중요하며, 특히 복잡한 작업에서 LLM이 스스로 오류를 수정하는 능력이 뛰어남을 보여준다. 이 연구는 인간과 AI의 협업을 위한 플랫폼 개발로 이어졌으며, LLM이 생물의학 데이터 과학의 생산성을 높일 잠재력을 가지고 있음을 강조한다. 궁극적으로, 이 자료는 LLM이 데이터 과학자의 역할을 보완하여 연구 발전을 가속화할 수 있음을 시사한다.
본 포스팅에서 리뷰한 논문은 아래 링크에서 확인할 수 있습니다.
https://arxiv.org/pdf/2410.21591

1. Background

데이터 과학자는 생의학 연구에서 필수적인 역할을 하지만, 숙련된 전문가를 확보하는 데는 시간과 비용이 많이 든다. 특히 연구자(의사, 생물학자)와 데이터 과학자 간의 협업은 언어·도메인 장벽으로 인해 비효율적일 수 있다. 이에 따라 LLM이 이러한 중간 작업을 자동화하거나 줄일 수 있다면, 연구의 효율성은 크게 향상될 수 있다.
하지만 기존 LLM 연구는 대부분 단순한 코드 생성이나 개별 예제 수준에 머물러 있었고, 실제 생의학 연구에서 수행되는 복잡한 태스크에 적용된 적은 거의 없었다.

2. Method

연구진은 총 293개의 실제 분석 태스크(Python 128개, R 165개)를 수집해 BioDSBench라는 벤치마크 데이터셋을 구축했다. 이들은 모두 임상시험 분석, 생물통계, 유전체 해석 등 실제 연구 논문에 사용된 분석 코드에서 추출한 것들이다. 이 태스크들은 통계 모델링, 변수 조작, 데이터 시각화, 회귀/분류, 서바이벌 분석 등 다양한 작업을 포함한다.
6종의 최신 LLM(GPT-4, Claude 3.5, Gemini 1.5 등)을 사용해 총 38가지 프롬프트 설정(vanilla prompting, chain-of-thought, self-reflection 등)에 대해 코드를 생성하고, 해당 결과의 정확성과 실행 가능성을 평가했다. 또한 실제 임상의사 5명을 대상으로 생성된 코드의 활용도와 실효성을 평가하는 사용자 연구도 병행했다.

3. Key Points

1) Prompt Engineering 기법의 영향력

단순히 "이 분석을 해줘" 수준의 vanilla prompt는 성능이 낮지만,
Chain-of-Thought(CoT), Self-Reflection(SR) 기법을 쓰면 정확도가 크게 향상된다.
특히 CoT는 인간의 사고 흐름을 단계별로 강제함으로써, 모델이 문제를 더 논리적으로 분해하게 만드는 방식이다.

2) LLM의 한계가 드러나는 태스크 유형 분석

논문은 어떤 유형의 태스크에서 LLM이 실패하는가를 구체적으로 분류한다.
- 고차원 통계모델 (e.g., mixed-effects model)
- 복잡한 데이터 구조 조작 (e.g., pivot, merge with condition)
- 도메인 해석이 필요한 경우 (예: p-value 해석, 임상 trial arm 간 비교)

3) BioDSBench 벤치마크 자체의 구조

293개 태스크가 단순한 toy problem이 아니라, 실제 논문에 사용된 분석 코드에서 직접 추출한 것이라는 점이 중요하다.
태스크 유형: descriptive analysis, modeling, visualization 등 다양한 범주로 구성됨.
R과 Python 태스크를 동일 조건으로 비교할 수 있는 유일한 생의학용 LLM 벤치마크 중 하나.

4. Key Findings

기본 프롬프트(vanilla prompting)를 사용할 경우, 전체 태스크 중 약 35% 정도만 정확한 코드를 생성함. 이는 LLM이 문제 지시사항을 이해하거나 데이터 구조를 해석하는 데 한계가 있음을 보여줌.
Chain-of-Thought prompting을 적용하면 정확도가 56.6%로 21%p 향상, Self-Reflection prompting도 45.5%까지 증가.
→ 프롬프트 엔지니어링이 LLM의 성능에 결정적 영향을 미침.
사용자 연구에서 의사들이 생성된 코드의 80% 이상을 실제 분석에 활용했으며, 일부 과제에서는 96%까지 재사용 가능하다고 평가됨.
→ 연구자들에게 실질적 시간·노력 절감 효과 확인.
하지만 복잡한 다변량 모델링, 고급 통계 해석, 비정형 데이터 처리 등 고차원 태스크에서는 여전히 전문가 개입이 필수적인 것으로 나타남.

5. Conclusions

LLM은 ‘대체’보다 ‘보조’에 가깝다: 현재로서는 생의학 분야 데이터 과학자를 완전히 대체하기엔 부족하지만, 전문가의 생산성을 높이는 “협업형 보조자”로서 강력한 가능성을 보여준다.
프롬프트 전략이 핵심이다: 단순한 요청이 아닌 문제 해결의 사고 과정을 단계적으로 유도하는 프롬프트 전략(chain-of-thought 등)은 코드의 정확성과 실행 가능성을 크게 향상시킨다.
벤치마크 기반 평가의 중요성: BioDSBench는 실제 임상 연구 기반의 LLM 평가를 위한 현실적인 벤치마크를 제공함으로써, 향후 의료/생명과학 분야의 AI 활용 가능성을 진단하는 기준점이 된다.
플랫폼화의 가능성: 연구자는 자연어로 분석 목적을 설명하고, LLM이 이를 해석하여 실행 가능한 코드로 변환해주는 ‘데이터 과학 플랫폼’ 개발의 토대가 될 수 있다.

이전 포스트

[운영체제] Virtual Memory

다음 포스트

ML/DL 기술 면접 질문 리스트

0개의 댓글