SOV 어텐션 회로와 데이터 티어로 분석한 오픈소스 LLM의 언어 누출 현상

궁금하면 500원·2026년 4월 3일

AI 미생지능

목록 보기
90/94

급격하게 발전하는 대규모 언어 모델 생태계에서, 오픈소스 모델을 활용해 파이프라인을 구축하거나 에이전트를 설계하다 보면 흥미로운 현상을 마주하게 됩니다.
특히 중국계 오픈소스 모델을 활용해 복잡한 추론 과정이나 멀티턴 대화를 수행할 때, 최종 출력은 한국어로 나오더라도 내부 생각 과정이나 도구 호출의 파라미터 영역에서 한국어와 일본어가 기묘하게 뒤섞인 이른바 '한본어'가 출력되는 경우가 빈번합니다.

현업에서 수많은 모델을 파인튜닝하고 프로덕션에 서빙하며 모델의 내부 메커니즘을 들여다본 아키텍트의 시각에서, 이 현상은 단순한 '데이터 부족'을 넘어 트랜스포머 아키텍처의 어텐션 매커니즘 작동 방식언어학적 구조, 그리고 글로벌 데이터 자원의 불균형이 맞물려 발생하는 필연적인 결과입니다.

학술적 근거와 아키텍처 관점의 분석을 바탕으로, 오픈소스 LLM에서 왜 이러한 언어 전이 및 누출 현상이 발생하는지 깊이 있게 짚어보겠습니다.


1. 언어학적 어순(SOV vs SVO)이 트랜스포머 어텐션에 미치는 가중치 비대칭성

이 현상을 이해하기 위한 첫 번째 핵심 가설은 "언어의 어순이 모델의 내부 연산 및 토큰 가중치 처리 방식을 결정한다"는 점입니다.
언어학적으로 영어와 중국어는 어두 중심 언어에 속하며, 한국어와 일본어는 어미 중심 언어에 속합니다.

인지언어학 및 신경망 연구에 따르면, 이 두 가지 어순 구조는 트랜스포머의 인코딩/디코딩 과정에서 전혀 다른 메커니즘을 유도합니다.

  • SVO (영어, 중국어) - 예측 기반 처리
  • 동사가 명사보다 먼저 등장합니다.
    동사는 어휘 구조상 뒤따라올 문맥의 프레임을 이미 내포하고 있기 때문에, 모델은 동사를 만나는 순간 다음에 올 명사를 강하게 예측하며 앞으로 나아갑니다.
    작업 기억의 부담이 적고 전방 예측 중심의 가중치가 형성됩니다.
  • SOV (한국어, 일본어) - 통합 기반 처리
  • 동사가 문장의 맨 끝에 위치합니다.
    조사와 명사들이 먼저 나열되기 때문에, 최종 동사가 등장하기 전까지 모델은 이 정보들을 메모리에 유지해야 합니다.
    그리고 마지막에 동사가 나오는 순간, 이미 등장한 전방의 토큰들을 거꾸로 끌어모아 의미를 완성하는 '통합' 연산을 수행합니다.
    어텐션 매커니즘 관점에서는 과거 토큰들을 복잡하게 참조하는 Look-back 성향의 가중치 회로가 발달하게 됩니다.

실질적인 토큰 확률분포 예시

이로 인해 멀티링구얼 임베딩 공간 내에서 한국어와 일본어의 토큰들은 의미론적 유사성을 넘어 '문맥을 처리하는 연산 기하학적 위치'가 매우 유사하게 배치됩니다.

예를 들어, "정보를 보다 확인하다"라는 문장을 처리할 때를 가정해 보겠습니다.

[한국어 처리] 정보를  ->  보다  ->  확인하다
[일본어 처리] 情報を  ->  より  ->  確認する

'정보를(情報を)'이라는 토큰이 입력된 후, 뒤이어 올 부사나 동사를 통합하기 위해 어텐션 레이어가 작동할 때, SVO 구조인 영어(Information -> View -> Check)나 중국어의 임베딩 가중치는 어순 확률 분포상 멀리 떨어져 있습니다.
반면, 동일한 SOV 연산 회로를 공유하는 한국어 토큰과 일본어 토큰은 소프트맥스 가중치 레이어에서 매우 높은 유사도를 보입니다.

그 결과 가드레일이 느슨한 중간 과정에서 정보를より確認する와 같이 두 언어의 토큰이 임베딩 공간에서 간섭을 일으켜 혼착되는 현상이 발생하게 됩니다.


2. 글로벌 데이터셋 계층 구조와 토큰 밀림 현상

두 번째 원인은 냉정하게 바라보아야 할 '코퍼스 볼륨의 격차'에 있습니다.
대형 오픈소스 모델을 개발하는 글로벌 연구소나 빅테크 기업에서 데이터셋을 구성할 때, 각 언어가 차지하는 위상은 모델의 임베딩 표현력에 절대적인 영향을 미칩니다.

  • 일본어의 위상 (2Tier 상위권): 일본어는 웹상에 고품질로 정제된 텍스트 데이터와 정형 데이터셋이 매우 풍부하게 공개되어 있습니다.
    대다수 글로벌 오픈소스 모델이라고 예: LLama, Qwen, Mistral 등 프리트레이닝기획 단계부터 일본어를 공식 지원 언어로 산정하고 막대한 양의 토큰을 학습시킵니다.
  • 한국어의 위상 (3Tier 이하): 한국어는 높은 디지털 보급률에 비해, 글로벌 연구 생태계에 공개된 고품질 오픈소스 데이터셋의 절대량이 부족합니다.
    로컬 벤더들이 구축한 데이터는 폐쇄적이며, 공공 데이터셋은 모델의 파운데이션 학습에 최적화되어 있지 않은 경우가 많습니다.

데이터 자원의 불균형이 초래하는 미끄러짐 현상

프리트레이닝 단계에서 저자원인 한국어 데이터는 고자원인 일본어 데이터에 비해 토큰 임베딩 공간 내에서 조밀한 밀도를 형성하지 못합니다.

이 상태에서 모델이 고차원적인 추론을 하거나, 생각 프로세스를 전개할 때 내부 표현 회로는 공간적으로 가장 가깝고 밀도가 높은 영역으로 미끄러지게 됩니다.
앞서 언급한 SOV의 문법적 유사성까지 결합되다 보니, 표현력이 부족한 한국어 가중치 회로가 이미 풍부하게 학습된 일본어의 대응 토큰 회로를 빌려와 출력을 해버리는 것입니다.


3. 언어 가드레일의 한계와 내부 회로의 누출

"그렇다면 왜 최종 출력은 한국어로 잘 나오는데, 중간 과정에서만 한본어가 보일까요?" 라는 의문이 들 수 있습니다. 이는 엔지니어링 관점에서 정렬 학습의 적용 범위와 관련이 있습니다.

최근의 오픈소스 모델들은 사용자가 지정한 언어로 답변하도록 강력한 '언어 가드레일' 학습이 적용되어 있습니다.
그러나 이 가드레일은 주로 사용자가 최종적으로 눈에 보게 되는 최종 레이어의 출력 토큰에 집중되어 작용합니다.

[사용자 질문] ──> [모델 내부 추론/도구 사용 (Thinking/Tooling)] ──> [최종 가드레일 레이어] ──> [최종 출력]
                       (SOV 회로 공유 및 저자원 현상으로           (강력한 한국어 보정)         (자연스러운 한국어)
                        내부적 '한본어' 토큰 활성화)

모델이 스스로 생각을 정리하는 'DeepSeek' 계열의 Thinking 프로세스나, 외부 API를 호출하기 위해 아규먼트를 조립하는 'Tool Use' 단계에서는 이러한 가드레일의 통제력이 상대적으로 약화됩니다.
가드레일의 압박이 풀린 모델의 심층부 레이어에서는 본질적인 가중치 분포가 그대로 드러나게 되고, 결국 가중치를 공유하던 일본어 토큰이 수면 위로 누출되는 것입니다.


기술적 시사점과 우리의 과제

요약하자면, 오픈소스 모델에서 발견되는 한본어 현상은 단순한 버그나 가벼운 데이터 왜곡이 아닙니다.

  1. 타입론적 유사성: SOV 언어 특유의 '통합 기반' 어텐션 메커니즘이 내부 회로를 공유하게 만듦.
  2. 임베딩 공간의 간섭: 저자원 언어인 한국어가 고자원 언어인 일본어의 조밀한 임베딩 영역으로 미끄러짐.
  3. 정렬의 비대칭성: 최종 출력 가드레일 내부의 추론 레이어에서 통제가 약화되어 발생하는 누출 현상.

프로덕션 환경을 설계하는 엔지니어 관점에서 이를 해결하기 위해서는 시스템 프롬프트 수준의 보정을 넘어, 중간 생각 과정에도 언어 일관성을 유지하도록 유도하는 Direct Preference Optimization 정렬 기법이나 인프라단에서의 토큰 필터링 전략이 보완되어야 합니다.

더 나아가, 국가적인 소버린 AI의 성공과 국내 기술 생태계의 자립을 위해서는 거시적인 관점에서 글로벌 학계와 오픈소스 생태계에 고품질의 한국어 코퍼스 및 데이터셋을 전략적으로 방출하고 인프라화하는 노력이 선행되어야 할 것입니다.
글로벌 무대에서 우리 언어 자산의 Tier를 끌어올리는 것, 그것이 AI 시대에 한국어의 온전한 주권을 지키는 가장 확실한 엔지니어링 해법입니다.

profile
공부할게 많아졌어요

0개의 댓글