Intern-S1: A Scientific Multimodal Foundation Model. mk1

lit·2025년 8월 24일

느낀점

시계열 관련해서 LLM 입력-학습이 안 되는 문제가 있었는데 해결방식이 가치가 있는 듯
Dynamic Tokenizer가 별로라고 했는데 SMILES, FASTA와 같은 표기법에 도움이 되는 것이 독특함
결국 일반화 성능과 트레이드 오프 없이는 과학 영역 올리기에만 집중한 것이 아닌가 하는 궁금증

Abstract

수많은 오픈 소스 기반 모델이 등장하여 일부 모델들은 주목받는 몇몇 분야에서 놀라운 발전을 이루었습니다.
성능은 클로즈드 모델에 근접했습니다.
그러나 가치가 높지만 더 어려운 과학 전문 분야에서는 여전히 전문가 모델에 의존하거나, 일반 기반 모델의 발전이 인기 분야에 비해 크게 뒤처져 과학 연구를 혁신하기에는 턱없이 부족합니다.
과학 분야에서는 오픈 소스 모델과 클로즈드 소스 모델 간에 상당한 격차가 존재합니다.

이러한 격차를 완화하고 AGI를 향한 한 걸음 더 나아가기 위해, 여러 과학 모달 데이터를 분석하는 전문성과 일반적인 이해 및 추론 능력을 갖춘 특수 범용 모델인 Intern-S1을 소개합니다.

Intern-S1은 280억 개의 활성화된 매개변수와 총 2,410억 개의 매개변수를 가진 멀티모달 MoE(Mixture-of-Experts) 모델이며, 과학 분야의 2.5조 개 이상의 토큰을 포함한 총 5조 개의 토큰으로 지속적으로 사전 훈련되었습니다.

post training steop에서 오프라인 및 온라인 강화 학습(RL)이 진행되는 InternBootCamp에서 Mixture-of-Rewards(MoR)를 제안하여 1000개 이상의 작업에 대한 RL 훈련을 동시에 시너지 효과를 내도록 했습니다.

알고리즘, 데이터 및 훈련 시스템의 통합 혁신을 통해 Intern-S1은 온라인 RL 훈련에서 최고 수준의 성능을 달성했습니다.
종합적인 평가 벤치마크에서 Intern-S1은 오픈 소스 모델 중 일반 추론 작업에서 경쟁력 있는 성능을 보였으며, 과학 분야에서는 오픈 소스 모델을 크게 능가했습니다.
분자 합성 계획, 반응 조건 예측, 결정의 열역학적 안정성 예측과 같은 전문 작업에서는 클로즈드 소스 최첨단 모델을 능가하는 성능을 보였습니다.

Introduction

Intern-S1이 오픈소스 모델 중 최고의 일반 추론 능력을 가졌으며,특히 과학 분야에서는 클로즈드 소스 모델들보다 뛰어난 성능을 보인다는 것을 확인할 수 있음.

최상위 오픈소스 LLM들은 일반적인 작업의 성능을 빠르게 높였지만 과학 관련 작업의 성능은 그에 비례해서 증가하지는 않았다는 점을 확인할 수 있음.

과학적 연구는 AGI 개발의 궁극적인 목표 중 하나로 인식되며 인류 사회에 근본적인 혁신을 가져올 잠재력 때문에 AI 시스템에 대한 매우 엄격한 요구사항을 설정합니다.
AI 모델은 분자 구조에서 시계열 신호에 이르는 다양하지만 데이터가 부족한 분산된 과학적 양식(modality)에 내재된 법칙을 이해하고 포착해야 할 뿐만 아니라 가설 검증 및 실험 설계 최적화와 같은 장기적이고 엄격한 추론 과정을 수행해야 합니다.
이러한 요구사항은 과학적 발견을 가속화하는 기초 도구 역할을 할 수 있고 과학적 양식을 이해하는 다중 모드 대규모 추론 모델의 개발을 필요로 합니다.

지난 몇 년간 주로 비전-언어 양식에 중점을 둔 오픈소스 다중 모드 대규모 모델과 대규모 추론 모델이 빠르게 발전했습니다.
특히 자연 이미지 이해, 수학 문제 해결, 코드 생성과 같이 대중의 광범위한 관심을 받는 분야에서 오픈소스 모델은 폐쇄형 모델에 근접하거나 일부는 능가하는 성과를 보였습니다.
이러한 발전은 더욱 어려운 과학 분야에서의 응용에 대한 기대를 높였습니다.
그러나 높은 가치를 지니지만 더 어려운 과학 시나리오에서 오픈소스 기반 모델의 발전은 수학이나 코드와 같은 인기 있는 분야에 비해 상당히 뒤처져 있습니다.
과학 분야에서는 오픈소스 모델과 폐쇄형 모델 사이에 상당한 격차가 남아있어 오픈소스 모델이 최첨단 연구에 의미 있게 기여하는 데 한계가 있습니다.

오픈소스 모델과 폐쇄형 모델 간의 과학적 이해 및 추론 능력 격차를 줄이고 오픈소스 모델을 AGI에 한 걸음 더 가깝게 만들기 위해, 복잡한 과학 과제 해결을 위해 설계된 오픈소스 과학 다중 모드 모델인 Intern-S1을 구축하며 얻은 경험과 주요 결과를 공유합니다.
Intern-S1은 이미지, 텍스트 및 비자연 시각 데이터, 분자 구조, 시계열 신호를 포함한 과학 데이터를 처리할 수 있습니다.
그림 1에서 볼 수 있듯이, Intern-S1은 이미지-텍스트 또는 텍스트 전용 과학 과제에서 오픈소스 및 폐쇄형 모델 모두를 능가합니다.

Intern-S1은 강력한 모델을 제시하는 것 외에도 AGI을 향한 실현 가능한 경로를 찾는 우리의 탐구에 한 걸음 더 나아간 것입니다.
그림 2는 최근 모델들이 수학 및 일반 추론에서 상당한 개선을 이루었지만, 상대적으로 데이터가 적은 과학 분야에서는 여전히 어려움을 겪고 있음을 보여줍니다.
오픈소스 모델의 발전을 더욱 가속화하더라도, 그들의 능력은 다양한 분야에서 고르게 성장하지 않아 일반적인 영역에서 지능 시스템을 개발하는 것이 어렵습니다.

모델의 능력을 데이터가 부족한 과제에 확장 가능한 방식으로 어떻게 향상시킬 수 있는지에 대한 문제를 논의하는 것이 중요하다고 생각합니다.
확장 가능성은 필수적입니다.
인기 있는 분야와 달리 모든 데이터 부족 과제에 대해 heuristics과 사전 지식에 크게 의존할 수 없기 때문입니다.
pre-training 및 post-training 단계에서 더 확장 가능한 관점으로 이 문제에 접근했습니다.

사전 학습 단계에서 주요 과제는 데이터가 부족하지만 가치가 높은 과학 분야를 위한 대규모 사전 학습 데이터를 준비하는 것입니다.
고품질 과학 데이터를 큐레이션하기 위해 우리는 두 가지 파이프라인을 채택했습니다.
(1) 에이전트 워크플로를 통해 웹 데이터에서 사전 학습 데이터를 채굴하고 지식 범위를 보장하는 리콜 및 필터링 파이프라인을 사용했습니다. 이 노력으로 인간 평가에 따르면, 대상 분야의 데이터 순도를 기존 약 2%(과학 데이터는 웹 크롤링 데이터에서 거의 나타나지 않음)에서 50% 이상으로 높였습니다.
(2) PDF 문서는 과학 지식의 풍부한 원천이며 저비용 파서와 고비용 파서를 신중하게 구성하여 적당한 비용으로 고품질의 문서 분석을 얻는 페이지 단위 PDF 문서 파싱 파이프라인을 채택했습니다. 이 파이프라인들은 Intern-S1의 지속적인 사전 학습에 2.5조 개 이상의 토큰에 달하는 과학 데이터를 제공했습니다.

사전 학습 후, 우리는 Intern-BootCamp를 기반으로 오프라인 및 온라인 강화 학습(RL)을 수행했습니다.
Intern-BootCamp는 1,000가지 이상의 과제를 포함하는 기초 모델을 위해 설계된 대규모 대화형 환경입니다.
RL에서 다양한 피드백 형태를 가진 수천 가지 과제의 동시 학습을 시너지 효과로 내기 위해 다양한 형태와 과제의 피드백을 하나의 통합된 보상 스칼라로 조화시키는 혁신적인 알고리즘 프레임워크인 Mixture-of-Reward (MoR)를 제안합니다.
창의적 글쓰기 및 채팅과 같이 검증하기 어려운 과제의 경우 이 프레임워크는 POLAR를 채택하여 현재 응답과 예상 분포 사이의 거리를 암시하는 보상 스칼라를 균일하게 제공합니다.
다양한 검증하기 쉬운 과제의 경우, 검증 모델, 규칙 및 환경 피드백의 다양한 조합을 채택하여 정확도를 정밀하게 나타내는 보상 스칼라를 생성합니다.
보상 메커니즘의 이러한 유연하고 목표 지향적인 설계는 MoR에 다양한 과제를 처리하는 데 있어 더 높은 효율성, 확장성 및 적응성을 부여합니다.
MoR을 여러 RL 알고리즘 기술 및 인프라 최적화와 통합하여 대규모 MoE 학습을 안정화하고 가속화했습니다.
더 적은 학습 샘플을 사용하여 모델이 전문 기술을 배우도록 유도할 수 있었고 최근 연구에 비해 10배 적은 RL 학습 시간으로 최첨단 성능을 달성했습니다.

다양한 데이터 큐레이션 전략, 고효율 인프라 및 고급 알고리즘을 갖춘 Intern-S1은 동시대의 오픈소스 모델 중 최첨단 성능을 달성했으며, 우리가 평가한 벤치마크에서 선도적인 폐쇄형 시스템(OpenAI o3, Gemini-2.5-Pro, Grok-4)과 경쟁력이 있거나 때로는 능가합니다.
Intern-S1은 텍스트 전용 및 다중 모드 환경 모두에서 광범위한 과학 추론 벤치마크에서 탁월한 성능을 보이며 일반 추론 과제에서도 최상위 성능을 유지합니다.
모델 가중치와 관련 도구 체인을 오픈소스화합니다.
이 일반화-전문가 통합 설계는 일반 추론에서 미래의 탐구를 촉진하고 다양한 과학 중심 시나리오에서 실질적인 발전을 가능하게 하는 것을 목표로 합니다.

MODEL ARCHITECTURE

해당 아키텍처는 MoE LLM을 중심으로, 비전 인코더, 시계열 인코더, 그리고 동적 토크나이저를 결합하여 다양한 형태의 데이터를 효율적으로 처리하는 멀티모달 모델입니다.
효율성을 위해 Intern-S1은 InternViT-6B를, Intern-S1-mini는 더 가벼운 InternViT-300M을 사용합니다.

Intern-S1의 아키텍처는 그림 3에 나타나 있습니다.
LLM의 경우, Intern-S1에는 Qwen3-235B MoE(Mixture-of-Expert) 모델을, Intern-S1-mini에는 Qwen3-8B를 채택했습니다.

LLM을 기반으로 과학 분야의 모달리티를 표현 방식에 따라 세 가지 유형으로 분류하고, 이를 LLM의 표현 공간에 투영하기 위해 각각 다른 전략을 사용합니다.

구체적으로는 다음과 같습니다.

시각화 가능한 표현: Vision Transformer(ViT)를 채택하여 인코딩합니다.
linearizable discrete representations: 새로운 동적 토크나이저를 제안하여 사용합니다.
domain-specific representations: 특별히 설계된 인코더를 활용합니다.

DYNAMIC TOKENIZER

각 데이터 유형(텍스트, SMILES, FASTA)은 각각 다른 숫자 벡터(예: [1, 2, ..., 100], [101, 102, ..., 120])로 변환됩니다.

이 논문은 이전 연구에서 영감을 받아, 분자식이나 단백질 서열 같은 과학 데이터 구조를 태그가 지정된 시퀀스(tagged sequences)로 공식화하는 방법에 대해 설명합니다.
예를 들어, C1CCCCC1는 SMILES 형식의 분자를 나타냅니다.
이전 연구들은 이렇게 태그가 지정된 시퀀스가 언어 모델이 하나의 모델 내에서 다양한 데이터 구조 유형을 구별하는 데 도움이 된다는 것을 보여주었습니다.

하지만 이 방법에는 두 가지 중요한 문제가 남아있습니다.

토크나이저가 모든 시퀀스에 동일한 분할 전략을 적용한다는 점.
다른 양식(modality)에서 사용되는 동일한 토큰이 같은 임베딩을 공유한다는 점.

문제 1: 정적 토크나이저의 비효율성

첫 번째 문제는 과학 분야에서 더 높은 compression ratio을 달성하는 모델의 능력을 제한합니다.
예를 들어, SMILES 형식은 화학 분야에서 널리 사용되지만 일반적인 텍스트 코퍼스에는 거의 등장하지 않습니다.
LLM은 SMILES 형식을 효율적으로 인코딩하지 못합니다.
정적 토크나이저는 모든 상황에 하나의 분할 전략을 사용하므로, 과학 양식에 유리하도록 설정하면 자연어 텍스트의 압축률이 감소하는 결과를 낳습니다.

문제 2: 임베딩 공유 문제

두 번째 문제는 임베딩 공유와 관련이 있습니다.
예를 들어, 'C'라는 문자가 DNA 서열, 분자식, 그리고 객관식 질문에 모두 나타난다고 가정해 봅시다.
이들이 같은 임베딩을 공유하도록 강제하면, 임베딩이 가장 자주 사용되는 곳(자연어 텍스트)으로 편향될 수 있습니다.
이는 과학 양식에서의 성능을 제한하게 됩니다.
고차원 임베딩 공간이 하나의 벡터에 여러 의미 표현을 저장할 수 있게 해주지만, 이러한 빈도 불균형은 모델이 이 표현들을 정확하게 학습하는 것을 방해합니다.

동적 토크나이저의 해결책

이전 연구들은 정적 토크나이저의 한계를 언급하며 범용 dynamic tokenizers를 제안했습니다.
그러나 관련 연구들은 아직 초기 단계이며, 분할 전략이 미세한 문맥 변화에 민감하게 반응하는 등 견고성 문제가 자주 발생합니다.
제안된 해결책들도 표준 토큰화 방식보다 수렴 속도가 느리다는 한계를 보였습니다.

이러한 한계가 과학 양식을 처리하는 시나리오에서는 상당 부분 완화될 수 있다는 것을 발견했습니다.
SMILES나 FASTA 형식과 같은 과학적 문자열은 정확하고 쉽게 식별할 수 있기 때문에 문맥 민감성 문제를 피할 수 있기 때문입니다.

동적 토크나이저의 워크플로우는 다음과 같습니다.

토크나이저가 먼저 입력 문자열 내의 양식들을 식별합니다.
각 양식에 대해 다른 분할 전략을 적용합니다.
결과 시퀀스들을 단일 입력 시퀀스로 연결하여 현대 LLM 아키텍처와 호환성을 유지합니다.

Intern-S1은 현재 4가지 양식을 지원하며, 향후 더 많은 양식을 지원할 계획입니다.
각 양식은 사용자 입력에 또는 와 같은 특별한 태그를 사용해 명확하게 표시할 수 있습니다.
분자 및 단백질 문자열을 자동으로 감지하기 위해 휴리스틱 규칙과 RDKit과 같은 도메인별 도구를 활용합니다.

실험 결과 및 압축률 계산

그림 4에서 볼 수 있듯이, 이 방법은 압축률을 OpenAI의 GPTOSS-120B, Deepseek-R1, Qwen3 시리즈보다 최대 70%까지 크게 향상시켰습니다.

SMILES 형식 데이터가 포함된 화학 데이터셋 D에 대해 여러 토크나이저 τ의 압축률(CR)을 비교했습니다.
토큰화 효율성은 토큰당 문자 수(Characters-per-Token)로 정량화되었으며, 공식은 다음과 같습니다.

문자열 길이(len)는 유니코드 문자로 측정됩니다.

TIME SERIES ENCODER

Intern-S1은 지진파, 중력파, 천문학적 광도 곡선, 뇌전도 기록과 같이 시간에 따라 기록된 측정값을 나타내는 순차적인 수치 데이터를 더 잘 처리하기 위해 시계열 인코더를 통합합니다.
이러한 데이터는 종종 길고, 연속적이며, 명시적인 의미 구조가 부족하여 LLM과 호환성이 낮습니다. 시계열 인코더는 시간적 의존성을 포착하고 입력을 LLM 기반의 이해 및 추론에 더 적합한 표현으로 압축합니다.

인코더는 연속적인 수치 값으로 표현된 원시 신호를 직접 수신하고 처리합니다. 신호는 샘플링 속도(하루에 한 샘플부터 기가헤르츠 수준까지), 지속 시간(수십에서 수백만 타임스텝까지), 물리적 의미가 매우 다양할 수 있습니다. 인코더는 전용 적응형 다운샘플링 모듈과 트랜스포머 기반 블록을 통합하여 과학적 시계열 신호를 효율적이고 통일된 방식으로 표현할 수 있도록 합니다. 이는 이미지 모달리티를 보완하고 다양한 과학 데이터를 이해하는 모델의 능력을 향상시키는 역할을 합니다.

lit

AI Researcher

이전 포스트

GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models

다음 포스트