파운데이션 프렌들리 아키텍처

moon.kick·2025년 5월 2일

최근 AI 업계에서 자주 등장하는 개념 중 두 가지가 바로 **“파운데이션 모델(Foundation Model)”**과 이 모델들을 다루기 위한 “파운데이션 프렌들리 아키텍처(Foundation-friendly Architecture)”, 그리고 그 모델들을 특정 용도나 도메인에 맞춰 재학습하는 **“파인 튜닝(Fine-tuning)”**입니다. 이 둘이 어떤 의미이며 어떻게 연결되는지 차근차근 살펴보겠습니다.

1. 파운데이션 모델 (Foundation Model)

대규모 데이터를 바탕으로 **엄청난 파라미터(매개변수)**를 가진 모델을 ‘기본 토대(Foundation)’로 삼는 개념
- 예: GPT, BERT, CLIP, Stable Diffusion 등.
이러한 모델은 한 번 크게 훈련(Pre-training)해 놓으면,
- 텍스트, 이미지, 오디오 등 여러 분야에 널리 활용 가능
- 다양한 다운스트림(downstream) 과제에 **파인 튜닝(Fine-tuning)**만 하면 적용 범위가 매우 넓어집니다.

2. 파운데이션 프렌들리 아키텍처 (Foundation-friendly Architecture)

대규모 파운데이션 모델을 효율적으로 **훈련(Training)**하고 **추론(Inference)**할 수 있도록,
- OS(운영체제) 레벨 혹은 컴퓨팅 인프라가 특화되어 있는 구조를 의미합니다.
기존의 일반적인 OS/인프라 설계에서는,
1. 작은 애플리케이션 프로세스 여러 개를 동시에 돌리거나,
2. CPU, 메모리, 디스크, 네트워크 자원을 표준적으로 할당하고 관리
  하는 것이 주된 목표였습니다.
하지만 파운데이션 모델은
1. 수십~수천억 개 이상의 파라미터,
2. 대규모 GPU/TPU 클러스터 사용,
3. 수백 GB~TB급 메모리/스토리지
  등의 자원 활용이 필수적이므로,
- 메모리 관리, 프로세스/스레드 스케줄링, I/O(입출력) 처리, 분산 클러스터 관리 등을 대규모 AI 모델에 최적화해야만 합니다.
- 예: 고성능 네트워크 스택, GPU/TPU 연산 Scheduling, Zero-copy Memory Access, 분산 파이프라이닝 등.

즉, 파운데이션 프렌들리 아키텍처란 이러한 대규모 모델이 안정적이고 빠르게 돌아갈 수 있도록 설계부터 전 과정이 AI 친화적인 컴퓨팅 환경(혹은 운영체제)을 가리킵니다.

3. 파인 튜닝 (Fine-tuning)

한 번 크게 학습된 파운데이션 모델을, 특정 분야나 작업에 맞춰 추가 학습하는 과정
- 예: “챗GPT”가 기초 GPT 모델을 갖고 있다가, 대화(챗) 태스크에 맞게 데이터셋으로 추가 학습
- 이미지 모델 CLIP을 특정 상품 이미지 분류에 맞게 소량 데이터로 추가 학습 등.
파인 튜닝 방식은 크게:
1. 풀 파인 튜닝(Full fine-tuning)
  - 모델 전체 파라미터(Weights)를 다시 학습
2. 부분 파인 튜닝(Partial fine-tuning, Adapter 등)
  - 주로 대형 모델의 특정 계층(레이어)만 업데이트하거나, Low-rank Adaptation(LoRA), Prefix Tuning, Adapter 모듈 등을 사용하는 경량화된 방식
3. 프로프트 튜닝(Prompt tuning)
  - 모델 파라미터를 거의 건드리지 않고, 특정 프롬프트(입력 문구)나 인컨텍스트 러닝 기법을 활용

이처럼 파인 튜닝은 소량의 추가 데이터와 비교적 적은 연산으로 특화된 성능을 끌어내는 핵심 기법이 되었습니다.

4. 파운데이션 프렌들리 아키텍처가 파인 튜닝에 미치는 영향

파운데이션 모델 규모가 워낙 크다 보니, 파인 튜닝 과정도 만만치 않게 큰 자원을 소모합니다. 따라서 OS나 인프라가 어떻게 구비되어 있느냐가 파인 튜닝의 성능과 효율을 크게 좌우합니다.

메모리 및 스토리지 관리
- 파인 튜닝 시 모델 전체(혹은 일부 레이어) 파라미터를 업데이트해야 하므로, GPU 메모리나 호스트 메모리를 많은 양 차지
- 효율적인 메모리 할당, 계산 그래프 분할, Zero-copy 등의 기술이 있으면 튜닝 속도가 빨라지고 비용은 절감
하드웨어 가속 및 스케줄링
- 파운데이션 모델을 GPU/TPU/NPU 등으로 돌릴 때, 여러 사용자가 동시에 공유하여 쓰거나, 대규모 파이프라인 병렬화를 수행할 수 있음
- 파운데이션 프렌들리 아키텍처는 GPU 스케줄링부터 IO 대역폭까지 튜닝 프로세스에 맞게 최적화
- 따라서 분산 학습 혹은 멀티 GPU 활용 시에도 병목(Bottleneck)이 덜 생김
네트워킹 및 분산 인프라
- 파인 튜닝 데이터가 여러 노드(서버)에 걸쳐 있거나, 모델 병렬화를 위해 노드를 나눠 쓸 경우, 네트워크 속도가 중요
- 파운데이션 친화 아키텍처는 고대역폭/저지연 네트워크와 분산 파일시스템(예: Lustre, NFS 고도화) 등을 갖춰 파인 튜닝의 분산 병렬 학습 효율을 높임
경량화/압축화 기술 지원
- 파인 튜닝 시 모델 일부만 업데이트하거나(LoRA, Adapter), 8bit/4bit Quantization 등으로 압축해 메모리를 줄이기도 함
- OS/프레임워크 레벨에서 이 과정을 자동화, 효율화하는 기능이 있으면 훨씬 쉽게 빠른 파인 튜닝 가능

5. 정리: 왜 중요할까?

파운데이션 모델이 대세가 되면서, 이를 “어떻게 효율적으로” 돌릴지가 새로운 과제로 떠올랐습니다.
간단히 말해,
- 파운데이션 프렌들리 아키텍처 = 대규모 모델(훈련+추론)을 제대로 돌릴 수 있는 운영체제, 인프라 설계
- 파인 튜닝 = 해당 모델을 특정 도메인(챗봇, 음성인식, 이미지 분석 등)에 맞게 추가 학습하는 과정
둘은 밀접한 관련이 있는데, OS/인프라가 대규모 모델을 원활히 지원해주어야 파인 튜닝도 빠르고 저렴하게 할 수 있기 때문입니다.

요약하자면,

파운데이션 프렌들리 아키텍처: 대형 모델을 다루는 데 특화된 하드웨어+소프트웨어(특히 OS) 통합 설계

파인 튜닝: 큰 모델을 구체적인 작업에 재학습하여 최적화하는 기술

이 둘이 잘 어우러질 때, 대규모 AI 시대에 효율적이고 강력한 AI 시스템을 구축할 수 있게 됩니다.

1. “OS 연구 / AI 따로 하지 말고”

기존에는 운영체제(OS)와 인공지능(AI) 기술을 보통 ‘따로’ 연구하거나 개발했어요.
- 예: OS를 연구할 때는 CPU 스케줄링, 메모리 관리 등 전통적인 운영체제 영역만 다루고,
  AI는 별도의 애플리케이션 레벨에서 모델을 학습하고 돌리는 식.
그런데 최근에는 운영체제 수준에서 AI 기술을 직접 지원하는 흐름이 생기고 있어요.
- 예: 메모리 스왑이나 스케줄링 시 AI 모델의 특성을 고려한다든지,
  OS 내부에서 AI 가속을 위한 API나 드라이버를 제공한다든지 하는 식.

즉, “OS 연구와 AI 개발을 따로 하는 게 아니라, 운영체제 자체가 AI 친화적으로 설계되고 통합되도록 하자” 라는 의미입니다.

2. “OS 구조 자체가 파운데이션 프렌들리 아키텍처”

요즘 AI의 핵심 트렌드 중 하나가 ‘파운데이션 모델(Foundation Model)’ 이잖아요. GPT나 BERT 같은 대형 모델들이 대표적이죠.
이러한 파운데이션 모델들은 매우 큰 파라미터 수를 가지고 있고, 이를 효과적으로 구동하기 위해서는 하드웨어나 OS 차원에서의 지원이 중요해집니다.
“파운데이션 프렌들리 아키텍처”란,
1. 대규모 모델을 효율적으로 로드하고,
2. 메모리나 스토리지 리소스를 탄력적으로 할당하고,
3. 각종 컴퓨팅 자원(GPU, TPU 등)을 쉽게 활용할 수 있도록
  운영체제가 설계되어 있다는 뜻이에요.
다시 말해, 운영체제 구동 원리(커널 레벨부터 I/O, 프로세스 관리, 메모리 관리까지)가 대형 AI 모델을 구동하는 데 최적화되어 있다는 것입니다.

3. “= 구글. 다 합쳐버림.”

구글을 예로 들면, 구글은 내부적으로 리눅스 기반으로 다양하게 커스터마이징한 OS(안드로이드, Chrome OS 등)를 운영하고, 동시에 대규모 AI 인프라(구글 브레인, TPU, etc.)를 개발합니다.
이를 통해 OS 차원부터 클라우드 인프라, 그리고 AI 모델/서비스까지 수직적으로 통합하고 있어요.
- 예: 구글 클라우드(GCP)는 내부적으로 이미 리눅스 OS + AI 가속 기능 + 분산 처리 시스템이 전부 결합되어 운영.
그래서 “다 합쳐버렸다”는 표현은, 단순한 OS와 애플리케이션 수준의 분리된 구조가 아니라, OS-플랫폼-서비스를 하나로 본다는 의미로 볼 수 있습니다.

4. “경량, 압축화 등”

AI 모델들은 파라미터가 크고 리소스를 많이 먹는데, 이를 효과적으로 다루기 위해서는 OS 레벨에서 경량화(Overhead 최소화)와 모델 압축(Quantization, Pruning 등)을 적극 지원해야 해요.
경량화된 커널과 효율적인 메모리/프로세스 관리로 ‘실제 AI 모델이 사용하는 자원만’ 집중할 수 있게 만들거나,
모델 압축 기술을 OS 차원(혹은 드라이버 수준)에서 최적화해, AI 모델 배포 시 스토리지나 메모리를 덜 차지하게 하는 것 등이 포함됩니다.

정리하면

“OS와 AI를 따로 두지 말고, 처음부터 운영체제 구조 자체를 대규모 AI 모델(파운데이션 모델) 지원에 최적화하자.”
이를 위해 구글 같은 빅테크 기업들은 이미 OS, 클라우드 인프라, 하드웨어 가속기, AI 모델까지 한 덩어리(End-to-end)로 설계, 개발, 운영하고 있음.
그 결과, AI 모델의 성능과 효율을 극대화하기 위해 OS가 경량화·압축화 등 다양한 기술적 요소를 반영하고, 이를 **“파운데이션 프렌들리 아키텍처”**라고 부르는 흐름이 생긴다는 이야기입니다.