Mi:dm 2.0은 한국 AI를 발전시키기 위해 설계된 이중 언어 LLM입니다.
한국어 텍스트를 처리하는 것을 넘어 한국 사회에 내재된 가치, 추론 방식, 상식 지식을 통합하여 문화적 맥락, 감정적 미묘함, 실제 시나리오를 미묘하게 이해하고 신뢰할 수 있으며 문화적으로 적절한 응답을 생성할 수 있습니다.
기존 LLM의 한계점을 해결하기 위해 Mi:dm 2.0은 독점 데이터 정화, 고품질 합성 데이터 생성, 커리큘럼 학습을 통한 전략적 데이터 혼합, 효율성 및 커버리지를 개선하기 위한 맞춤형 한국어 최적화 토크나이저를 포함하는 포괄적인 파이프라인을 통해 강력한 데이터 품질을 강조합니다.
두 가지 보완적인 구성을 제공합니다.
Mi:dm 2.0 Base (115억 개 매개변수): 범용 사용을 위한 Depth-up Scaling 전략으로 구축되었습니다.
Mi:dm 2.0 Mini (23억 개 매개변수): 자원 제약 환경 및 전문 작업을 위해 최적화되었습니다.
Mi:dm 2.0은 한국어 특정 벤치마크에서 최첨단 성능을 달성했으며, KMMLU에서 최고 수준의 제로샷 결과를 보였고 언어, 인문학, 사회 과학 작업 전반에 걸친 내부 평가에서도 강력한 결과를 보여주었습니다.
Mi:dm 2.0 라인업은 MIT 라이선스로 출시되어 광범위한 연구 및 상업적 사용을 지원합니다.
KT는 한국 중심 AI를 구현하는 instruction-tuned language model인 Mi:dm 2.0을 개발했습니다.
한국 중심 AI는 한국 사회에 내재된 고유한 가치, 인지 프레임워크, 상식적 추론을 철저히 내재화한 모델을 의미합니다. 단순히 한국어로 처리하고 응답하는 것을 넘어 한국의 사회문화적 구조와 규범, 가치를 반영하고 존중하는 깊은 이해를 기반으로 합니다.
Mi:dm 2.0의 개발은 중요한 관찰에서 시작되었습니다.
한국어를 지원하는 수많은 LLM이 출시되었음에도 불구하고 한국 사회의 현실에 진정으로 기반을 둔 모델은 거의 없다는 점입니다.
기존 LLM이 불충분하거나 품질이 낮은 한국어 데이터셋으로 훈련되어 언어적 성능이 제한적이고 한국 문화적 감수성과의 정렬에 현저한 격차가 있음을 확인했습니다.
한국 사용자 관점에서 부자연스럽거나 감정적으로 부적절한 응답, 심지어 한국어 외 다른 언어로 응답하는 경우가 종종 발생합니다.
이러한 단점을 해결하기 위해 우리는 Mi:dm 2.0을 구상했습니다.
언어적 숙련도를 넘어 한국 사회에 내재된 고유한 가치, 인지 프레임워크, 상식적 추론을 깊이 내재화하여 진정한 한국 중심 AI의 새로운 표준을 수립하는 것을 목표로 합니다.
고품질의 한국어 텍스트를 선별하기 위한 기준을 정의하고 혁신적인 합성 데이터 생성 기술로 보완하는 견고한 데이터 큐레이션 파이프라인에서 시작됩니다.
신중한 데이터 선택과 전략적 훈련을 통해 축소된 코퍼스 크기에도 불구하고 효과적인 학습을 보장하는 정교한 사전 훈련 방법론을 자세히 설명합니다.
국내외 유사 모델을 능가하는 연산 효율성을 제공하도록 설계된 모델 최적화 기술에 대해 깊이 있게 다룹니다.
모델이 한국 사회문화적 추론을 수행하고 문맥에 적절한 응답을 생성하는 능력을 크게 향상시키기 위해 사용된 후처리 훈련 기술을 설명합니다.
마지막으로 Mi:dm 2.0의 성능에 대한 정량적 및 정성적 평가를 제공하며 한국어, 문화 및 사회에 대한 Mi:dm 2.0의 고급 이해를 명백히 보여주는 벤치마크 비교를 포함합니다.
다양한 배포 요구 사항을 충족하기 위해 11.5B 및 2.3B의 두 가지 매개변수 규모로 Mi:dm 2.0을 구축합니다.
Mi:dm 2.0 라인업은 모델 아키텍처, 매개변수 규모 및 압축 기술에 걸친 광범위하고 체계적인 실험의 결과입니다.
Mi:dm 2.0 Base (11.5B)는 규모와 성능 간의 최적의 균형을 이루도록 세심하게 설계된 범용 기반 모델 역할을 합니다.
개발은 KT의 독점적인 사전 훈련 코퍼스를 사용하여 8B 매개변수 모델을 처음부터 훈련하는 것으로 시작되었습니다.
기능을 더욱 향상시키고 11.5B 규모에 도달하기 위해 Depth-up Scaling (DuS) 전략을 적용했습니다.
복잡한 아키텍처 변경 없이 모델의 깊이를 효율적으로 확장하여 초기 8B 모델이 학습한 표현을 효과적으로 활용할 수 있도록 합니다.
Mi:dm 2.0 Mini (2.3B)는 더 가볍고 더 작고 압축된 대안을 제공합니다.
리소스가 제한된 장치에 배포하기 위해 특별히 최적화되어 계산 효율성을 우선시합니다.
Mi:dm 2.0 Mini는 의도 이해 및 기계 번역에 특별히 초점을 맞춘 작업 전문화를 강조하여 리소스가 제한된 특정 응용 프로그램에 매우 효율적입니다.
훈련 중에는 GPU 리소스 효율성을 극대화하기 위해 병렬화 및 양자화를 포함한 다양한 최적화 기술을 사용합니다.
Mi:dm의 특정 요구 사항을 충족하기 위해 기본 훈련 프레임워크를 확장하고 사용자 정의합니다.
Mi:dm 2.0은 유사하거나 더 큰 규모의 오픈소스 모델에 비해 경쟁력 있거나 우수한 품질을 제공하면서도 상당히 낮은 계산 오버헤드를 유지합니다.
Mi:dm 2.0 Base와 Mi:dm 2.0 Mini는 모두 MIT 라이선스로 출시되어 연구 및 상업적 목적으로 광범위하게 사용할 수 있습니다.
LLM은 뛰어난 성능을 위해 방대한 양의 고품질 텍스트 데이터에 크게 의존합니다.
하지만 한국어는 영어에 비해 고품질의 공개 학습 데이터가 매우 부족하며 기존 한국어 코퍼스의 이질적인 품질은 안정적이고 신뢰할 수 있는 성능을 저해하는 요인으로 작용합니다.
Mi:dm 2.0은 이러한 한국어 학습 데이터의 구조적 한계를 극복하기 위해 사전 학습 코퍼스 구축 초기 단계부터 데이터 품질을 최우선으로 삼아 설계하고 학습시켰습니다.
전반적인 토큰 양을 줄이더라도 정확하고 완전하며 신뢰할 수 있는 문서를 선별하는 데 집중했습니다.
Mi:dm 2.0에서는 고품질 데이터를 '문맥적으로 일관되고, 가독성이 높으며, 유해하지 않고, 잘 형성된 문서'로 정의합니다.
이 기준을 달성하기 위해 독자적인 데이터 정제 파이프라인을 통해 기준에 미달하는 문서는 엄격하게 제외했습니다.
영어 데이터셋의 경우 상업적으로 이용 가능한 오픈소스 코퍼스가 풍부하여 품질 선별이 비교적 간단하지만 한국어 텍스트에 동일한 엄격한 품질 기준을 적용하면 사용할 수 있는 토큰의 총량이 크게 줄어듭니다.
Mi:dm 2.0은 모델의 전반적인 표현 능력과 일반화 성능을 높이기 위해 이러한 데이터 품질 접근 방식을 확고히 유지하고 있습니다.
이러한 문제를 해결하기 위해 고품질 한국어 코퍼스의 제한된 양을 보완하기 위해 고충실도 합성 데이터를 의도적으로 생성했습니다.
이 합성 데이터는 주로 실제(사람이 생성한) 콘텐츠를 기반으로 하며 언어 모델에 의해 증강됩니다.
한국어 데이터셋의 제한된 가용성과 높은 획득 비용(대부분 웹 기반)이라는 전반적인 문제를 고려할 때 합성 데이터 증강은 특히 유용하다는 것이 입증되었습니다.
영어 코퍼스를 한국어로 번역하거나 기존 이중 언어 코퍼스에서 추출한 주제 및 키워드를 바탕으로 교과서 형식의 문서를 생성하는 작업이 포함됩니다.
Mi:dm 2.0의 데이터 엔지니어링 파이프라인은 데이터 혼합 및 커리큘럼 학습 전략을 통합합니다.
코퍼스 필터링 및 증강과 동시에 응용 프로그램별 요구 사항에 기반한 계층적 도메인 분류 체계를 구축했습니다.
이 분류 체계는 모델의 의도된 사용 사례에 맞게 학습 데이터 분포를 조정하는 데 사용됩니다.
데이터셋 균형을 체계적으로 모니터링하고 관리하기 위해 전체 코퍼스에 걸쳐 도메인 분류기를 학습시켜 분포를 정량화합니다.
모델은 부족하게 표현된 도메인을 정량적으로 세부적으로 식별할 수 있습니다.
토큰 밀도가 부족한 도메인의 경우 피드백 루프를 통해 추가 합성 데이터를 생성하여 학습 코퍼스의 범위와 다양성을 모두 향상시킵니다.
데이터 효율성을 최적화하기 위해 Mi:dm 2.0 모델은 한국어의 고유한 언어적 특성을 포착하도록 특별히 설계된 맞춤형 토크나이저를 활용합니다.
정밀하게 선별된 사전 학습 코퍼스를 기반으로 Mi:dm 2.0 토크나이저는 기존 GPT 시리즈 토크나이저보다 한국어의 형태학적 구조를 더 효과적으로 처리하도록 설계되었습니다.
더 높은 토큰 압축률을 달성하고 학습 및 추론 시 계산 효율성을 크게 향상시킵니다.
Mi:dm 2.0 모델의 전체 데이터 파이프라인은 데이터 출처, 라이선스, 규정 준수에 대한 엄격한 기준을 준수합니다.
모든 학습 데이터는 오픈소스 데이터셋 또는 제3자와의 공식 라이선스 계약을 통해 확보되어 합법성을 보장합니다.
무단 크롤링 또는 사용자 민감 콘텐츠를 포함하여 법적 또는 윤리적 문제를 야기하는 데이터는 엄격히 제외됩니다.
개인 식별 정보(PII) 및 독점 고객 데이터를 제외하여 모델 개발 프로세스 전반에 걸쳐 데이터 보안 및 윤리적 책임을 보장합니다.
고성능 언어 모델을 개발하려면 학습 데이터의 정확한 분석 및 구조화된 관리가 필수적입니다.
그러나 한국어 데이터셋에 대한 상세한 분류의 부족은 데이터 범위 확산 및 모델 성능 해석 노력을 크게 제한합니다.
이러한 문제를 극복하기 위해 Mi:dm 2.0은 균형 잡힌 데이터 분포와 효율적인 학습을 지원하도록 설계된 새로운 데이터 분류 프레임워크를 정의합니다.
언어, 도메인, 출처, 언어 스타일을 포함한 여러 차원에 걸쳐 데이터를 구성하며 수집부터 학습까지 전체 데이터 파이프라인에 일관되게 적용됩니다.
따라서 정제 및 고품질 데이터 선택 후, 아래에 상세히 설명된 여러 관점에서 데이터를 분류합니다.
언어적 관점에서 Mi:dm 2.0 데이터셋은 한국어 및 영어와 같은 다국어 텍스트뿐만 아니라 수학식 및 소스 코드와 같은 비언어적 콘텐츠로도 분류됩니다.
도메인 관점에서는 내부적으로 개발된 분류 체계를 사용하여 각 문서의 주제 내용과 의도된 응용 프로그램을 반영하도록 데이터셋을 분류합니다.
이 분류 체계는 인문학, STEM(과학, 기술, 공학, 수학), 응용 과학, 건강 및 식품, 삶과 문화, 기타의 6가지 주요 도메인과 추가 세분화를 제공하는 20가지 중간 수준 하위 도메인으로 구성됩니다.
마지막으로 데이터 출처에 따라 문서는 크게 유기적(Organic) 또는 합성(Synthetic)으로 분류됩니다.
유기적 데이터는 실제 인간 활동에서 파생된 자연 발생 텍스트로 구성됩니다.
여기에는 웹 페이지, 뉴스 기사, 서적, 백과사전, 정부 문서, 학술 논문 및 기타 서면 자료와 같은 출처가 포함됩니다.
반대로 합성 데이터는 증강 기술로 생성된 텍스트를 의미합니다.
여기에는 기계 번역, 문서 재작성 및 CoT(Chain-of-Thought) 생성과 같은 고급 방법을 통해 생성된 문서가 포함됩니다.
이러한 차원 외에도 Mi:dm 2.0은 텍스트를 언어 스타일과 어조에 따라 분류합니다.
특히 문서는 주로 서면 또는 구어체 언어 특성을 띠는지 여부와 어조가 공식적인지 비공식적인지에 따라 분류됩니다.
Mi:dm 2.0 전체 학습 과정에서 각 분류 속성에 대한 통계 정보는 이 분류 프레임워크의 지침에 따라 데이터 수집부터 학습까지 모든 학습 데이터 하위 집합에 걸쳐 지속적으로 관리됩니다.
각 학습 샘플에는 이러한 차원에서 최대 5개의 분류 속성이 태그 지정됩니다.
역사적 인물인 "세종대왕"을 제목으로 한 어린이 책에 대한 한국어 웹 리뷰는 언어 차원에서 "한국어"로 인문학 도메인 내의 "역사" 하위 도메인으로 출처는 "유기적"으로 분류됩니다.
영어 웹 기사에서 "엽록소" 키워드를 추출하여 교과서 형식으로 내용을 재작성하고 한국어로 번역하여 생성된 한국어 문서는 언어에서 "한국어"로, STEM 도메인 내의 "생물학" 하위 도메인으로, 출처는 "합성"으로 분류됩니다. 모든 분류 축에 걸쳐 포괄적인 통계를 유지함으로써 데이터 분포를 모니터링하고, 부족하게 표현된 범주를 식별하며, 데이터셋을 전략적으로 증강하여 균형과 다양성을 확보할 수 있습니다.

데이터 소스는 데이터 수집 초기 단계부터 중요한 기준이 됩니다.
목표는 사전 학습 코퍼스 내의 다양성을 확보하여 언어 모델이 다양한 문서 스타일과 주제에서 표현 능력을 습득하도록 하는 것입니다.
사전 학습 코퍼스는 실제 언어 사용 환경을 정확하게 반영하기 위해 주로 유기적 데이터 (자연 발생적인, 사람이 작성한 텍스트)로 구성됩니다.
전체 데이터셋의 약 85.7%는 웹 문서와 같은 유기적 도메인에서 가져왔습니다.
이러한 구성은 모델이 한국어 고유의 구문 구조, 담화 패턴 및 비공식적인 표현에 대한 높은 충실도 지식을 습득할 수 있도록 신중하게 선택되었습니다.
또한 코퍼스의 약 10%는 AIHub 및 국립국어원(NIKL)과 같은 고품질 공개 데이터셋에서 얻은 오픈소스 유기적 데이터로 구성됩니다.
행정 문서, 전사된 구어체 대화 및 기타 공개적으로 사용 가능한 언어 자산으로 구성되어 모델의 신뢰성을 향상시키며, 특히 표준어 사용 및 공개 벤치마크와의 호환성 측면에서 그렇습니다.
소규모 하위 집합(약 0.71%)은 학술 논문, 서적, 정부 문서, 사전과 같은 추가 유기적 소스로 구성됩니다.
이 범주가 코퍼스에서 상대적으로 적은 부분을 차지하지만, 고밀도 정보 텍스트, 공식 언어 및 개념적으로 일관된 콘텐츠를 이해하는 모델의 능력을 확장함으로써 모델 성능에 크게 기여합니다.
이 데이터 구성 전략은 단순히 주제별 다양성을 보장하는 것을 넘어섭니다.
이는 모델에 실제 한국어 사용에서 발견되는 광범위한 언어적 맥락을 제공하여 모델이 더 자연스럽고 강력하며 상황 인식이 뛰어나도록 돕는 것을 목표로 합니다.
Mi:dm 2.0 모델이 '한국 중심 AI'를 효과적으로 구현할 수 있도록 데이터 획득 및 코퍼스 구축 전략은 한국어 유기적 데이터셋의 언어적 및 주제적 다양성을 극대화하는 데 우선순위를 두었습니다.
Mi:dm 2.0은 공공 컬렉션과 라이선스 획득을 모두 통합하는 체계적인 코퍼스 구축 방법론을 사용합니다.
이 접근 방식은 한국 문학 작품, 근대 역사 기록(예: 뉴스 기사), 공공 문서(예: 법률 텍스트 및 사전), 한국 문화유산을 위해 특별히 큐레이션된 구조화된 데이터베이스를 포함하는 포괄적인 자원 배열을 제공합니다.
주요 유기적 데이터 소스는 Common Crawl (CC), Hugging Face, AIHub, NIKL에서 파생됩니다.
뉴스 기사, 서적 및 사전은 공식 라이선스 계약을 통해 얻어지며 내부 품질 기준에 따라 필터링됩니다.
영어 웹 코퍼스의 경우 문서 수준에서 미리 주석이 달린 품질 지표가 있는 오픈소스 코퍼스를 활용합니다.
반대로 한국어 웹 데이터는 CC 기반 코퍼스에서 가져오며 적합성을 보장하기 위해 내부적으로 개발된 필터링 파이프라인을 통해 처리됩니다.
AIHub 및 NIKL에서 얻은 데이터는 상업적 배포에 대한 적용 가능성을 확인하기 위해 명시적인 권한 부여 및 엄격한 큐레이션을 거칩니다.
합성 데이터는 전체 학습 데이터셋의 약 14%를 차지합니다. 주요 목적은 유기적 한국어 데이터셋의 도메인별 데이터 부족을 보완하고 부족하게 표현된 영역의 범위를 확장하는 것입니다.
원래 유기적 데이터 소스에서 부족했던 한국에 대한 지식을 향상시키기 위해 합성 데이터 생성이 활용되었습니다.
영어의 경우 고품질 오픈 데이터셋이 풍부하므로 공개적으로 사용 가능한 합성 코퍼스를 선별적으로 통합합니다.
Mi:dm 2.0은 맞춤형 생성 파이프라인을 통해 한국어 합성 데이터를 생성합니다.
Mi:dm 2.0 모델의 합성 데이터 구축은 공개적으로 사용 가능한 연구 방법론과 자체 개발한 독점 증강 기술을 모두 활용합니다.
Mi:dm 2.0은 데이터 선택 및 전처리 과정을 위해 의도적으로 개발된 품질 관리 파이프라인을 구현하여 결과 코퍼스가 다음 토큰 예측 학습에 최적으로 적합하도록 보장합니다.
필터링 기준은 모델 학습 중 간섭을 최소화하면서 일관되고 학습 가능한 토큰 시퀀스를 구성하도록 정의됩니다.
사전 학습 관점에서 고품질 데이터는 다음 조건을 충족하는 텍스트로 정의됩니다.
데이터는 방해되는 특수 문자나 문법적 오류가 없이 일관된 텍스트 일관성을 유지해야 합니다.
1을 충족하고 높은 가독성과 잘 형성된 완전한 문장으로 구성되어야 하며 언어적 완전성 기준을 준수해야 합니다.
데이터는 유해한 콘텐츠가 없어야 하며 개인 정보 침해를 일으킬 수 있는 개인 식별 정보로부터 자유로워야 합니다.
품질 표준은 모델의 일반화 능력이 형성되는 사전 학습 단계를 포함하여 데이터 준비 파이프라인 전체에 적용됩니다.
노이즈가 많거나 관련 없는 토큰의 발생을 최소화함으로써 모델은 더 안정적인 토큰 분포를 학습하고 언어 패턴과 지식을 더 효과적으로 내재화할 수 있습니다.
Mi:dm 2.0 모델은 다단계 데이터 필터링 및 정제 파이프라인을 사용하며 고품질 한국어 토큰의 상대적 희소성을 완화하기 위해 특히 한국어 데이터에 중점을 둡니다.
그림 2에 나타난 바와 같이 이러한 노력의 주요 구성 요소는 대규모 한국어 웹 데이터용으로 내부적으로 개발된 8단계 필터링 파이프라인입니다.
웹 코퍼스, CC에서 파생된 코퍼스는 형식 손상, 저품질 텍스트, 유해하거나 편향된 콘텐츠 또는 PII가 포함된 문서를 포함할 수 있어 원시 웹 데이터를 직접 사용하기에 부적합하게 만듭니다.
Mi:dm 2.0 모델은 한국어 웹 콘텐츠에 특별히 맞춤화된 엄격한 순차적 필터링 전략을 적용하여 이 문제를 해결합니다.
파이프라인의 각 단계는 데이터셋을 점진적으로 정제하여 실제 학습 가치가 있는 문서를 분리합니다.
문서 중복 제거: TF-IDF 벡터에 대한 코사인 유사도를 기반으로 중복 문서를 제거합니다.
휴리스틱 필터링: 해시태그, 과도한 줄임표, 비정상적인 구두점 등을 포함하는 문서를 이전 연구에서 영감을 얻은 수제 규칙을 사용하여 필터링합니다.
혼란도(Perplexity) 필터링: 비정상적인 n-gram 혼란도를 보이는 문서는 저품질 또는 비일관적인 것으로 간주하여 제거합니다.
손상된 문서 감지 및 수정: 유니코드 손상 및 손상된 문자 시퀀스를 감지하고 수정합니다.
모델 기반 품질 필터링: 고품질 및 저품질 문서의 주석이 달린 예시를 사용하여 이진 분류기 앙상블을 학습시킵니다. 일반적인 품질 기준에 따라 학습된 분류기와 이전 연구에서 영감을 얻은 교육 품질 기준에 따라 학습된 분류기로 구성된 이진 분류기 앙상블이 사용됩니다.
유해 콘텐츠 필터링: KT의 독점적인 한국어 유해성 및 편향 분류 체계에 따라 학습된 이진 분류기를 사용하여 유해하거나 불쾌한 콘텐츠를 제거합니다.
라인 수준 중복 제거: 문서 내에서 반복되는 줄이나 단락을 제거하여 중복을 줄입니다.
최종 규칙 기반 정제 및 PII 익명화: 최종 정리에는 한국어 고유의 형식 수정, 보이지 않는 유니코드 토큰 정규화, 감지된 개인 정보 제거 또는 익명화가 포함됩니다.
Mi:dm 2.0은 책, 백과사전, 학술 논문, 전문가 지식 데이터베이스 및 라이선스 뉴스 기사와 같이 Common Crawl이 아닌 한국어 데이터셋용 출처별 정제 파이프라인을 설계합니다.
이 파이프라인은 각 도메인에 대한 출처별 정제 모듈로 구성되며 한국어 데이터의 고유한 특성을 명시적으로 반영합니다.
예를 들어, 뉴스 기사 정제 모듈은 개별 기사의 핵심 내용과 관련이 없거나 전체 맥락을 방해하는 문자열을 제거하는 규칙을 통합합니다.
한국어 기사 끝에 있는 바이라인(기자 이름 및 이메일 주소) 또는 이미지 제거 후 본문에 남아 있는 이미지 캡션이 제거됩니다.
국내 온라인 뉴스 헤드라인에서 고유하게 발견되는 '[속보]' 또는 '상보'와 같은 문자열 패턴을 제거하는 것과 같이 한국어 데이터에 적용되는 규칙도 통합됩니다.
또 다른 예로 한국 법원 판결문 정제 모듈은 PII를 수정하고 국내 법원 판결문의 고유한 형식에서 핵심 콘텐츠만 추출하면서 공식적인 법률 언어를 학습하는 데 필요한 구조적 및 의미적 콘텐츠를 보존하는 규칙을 적용합니다.
이러한 출처별 규칙을 통해 정제된 문서는 한국어 웹 데이터 파이프라인에서 유해 콘텐츠 필터링을 통과한 문서와 품질 면에서 비교할 만한 것으로 간주됩니다. 그 후, 학습 데이터셋에 사용되기 전에 중복 제거 및 PII 익명화와 같은 최종 단계를 거칩니다.
영어, 코드 및 수학 콘텐츠의 경우 고품질의 상업적으로 적합한 공공 데이터셋이 선택되며, 수동 검사 및 샘플 기반 정성 분석을 통해 획득 시 엄격하게 평가됩니다. 한국어 데이터셋의 품질 표준과의 정렬을 보장하기 위해 중복 제거 및 최종 정규화가 수행됩니다.

복잡한 추론과 개념 이해를 가능하게 하려면 다양한 지식과 언어 표현을 아우르는 고품질 데이터를 확보하는 것이 필수적입니다.
한국 중심 AI가 되기 위해서는 충분한 다양성과 대표성을 반영하는 한국어 데이터셋을 수집해야 합니다.
공개적으로 접근 가능한 한국어 코퍼스의 양이 영어보다 현저히 적으며 사용 가능한 데이터의 상당 부분이 웹 소스에 집중되어 있어 종종 낮은 품질의 콘텐츠를 포함하고 있습니다.
한국어 데이터는 인문사회과학 분야에 불균형적으로 편중되어 있어 도메인 다양성 측면에서 추가적인 어려움을 야기합니다.
이러한 구조적 한계는 다양한 도메인에서 데이터를 수집한 후의 데이터 분포 통계에서 경험적으로 관찰됩니다.
그림 3은 Mi:dm 2.0의 사전 학습 코퍼스에 대한 데이터 소스 및 도메인별 토큰 분포를 보여줍니다.
인문사회과학 분야의 토큰을 나타내는 연한 파란색 막대가 데이터셋에서 불균형적으로 큰 부분을 차지합니다. 대조적으로, 응용 과학(APSC), 예술(ARTS), 문화(CULT)와 같은 도메인은 심각하게 적게 표현되어 있습니다.
특히 응용 과학은 전체 토큰 수의 0.1%에 불과하여 현재 데이터 생태계 내의 명확한 도메인 불균형을 보여줍니다.
이러한 불균형은 도메인별 응용 프로그램에서 모델의 표현력과 추론 능력에 영향을 미칠 수 있습니다.
이러한 편향을 완화하기 위해 Mi:dm 2.0은 사전 학습 단계에서 고품질의 합성 데이터를 전략적으로 통합합니다.
생성 파이프라인은 단순한 번역 기반 증강을 넘어 교과서 스타일의 설명문, 논리적으로 구조화된 추론 사슬, 그리고 특정 학습 목표에 맞춰진 다양한 문서 유형을 생성하여 추론 구조와 구성적 이해를 시뮬레이션하도록 설계되었습니다.
모든 합성 데이터는 유니코드 정규화, PII 필터링 및 중복 제거를 포함하여 원본 코퍼스와 동일한 엄격한 후처리를 거쳐 최종 학습 데이터셋에 포함되기 전에 품질 일관성을 보장합니다.
Mi:dm 2.0의 사전 학습 데이터 분포를 분석한 결과 공개 데이터셋에서 수집된 한국어 코퍼스에서 적게 표현되는 도메인은 STEM(과학, 기술, 공학, 수학) 및 경제학과 같은 계산 집약적인 분야입니다.
데이터셋의 불균형은 모델 개발 초기 벤치마크 평가에서 반영되었는데, 우리의 모델은 물리학, 화학, 생물학, 수학, 컴퓨터 과학, 경제학과 같이 높은 수준의 추론과 도메인별 지식을 요구하는 분야에서 지속적으로 저조한 성능을 보였습니다.
구조적 편향을 해결하기 위해 우리는 도메인 대상 합성 증강을 위한 시드 데이터로 활용할 높은 신뢰도의 오픈 소스 자료를 체계적으로 수집합니다.
시드 코퍼스는 이전에 부족하게 표현되었던 도메인에서 개념 이해 및 문제 해결 능력을 도입하고 강화하기 위해 신중하게 선택됩니다.
이전 연구의 통찰력을 활용하여 각 도메인에 맞는 프롬프트 구조를 맞춤 설정합니다.
시드 문서에서 파생된 핵심 개념은 교과서 스타일 설명 및 시나리오 기반 내러티브를 포함한 다양한 형식을 활용하여 고품질 한국어 교육 텍스트로 변환됩니다.
합성 문서는 다양한 난이도로 생성되며 다양한 독자 프로필에 맞게 설계되어, 충분한 커버리지가 부족한 도메인에서 코퍼스를 풍부하게 만듭니다.
사전 학습 데이터셋에 통합된 CC 코퍼스 내의 한국어 부분은 대규모 언어 모델 학습을 위한 널리 사용되는 오픈 소스 자원에서 유래합니다.
고품질 문서의 작은 부분집합만을 추출하기 위해 엄격한 필터링 파이프라인을 적용했음에도 불구하고 CC 코퍼스는 우리 모델에서 사용되는 한국어 데이터셋의 가장 큰 부분을 차지합니다.
그러나 이 데이터셋은 본질적으로 노이즈가 많으며 문서의 상당 부분이 낮은 품질입니다.
실제로 초기에 수집된 원시 CC 데이터의 80% 이상이 데이터 필터링 과정에서 제외됩니다.
CC의 구조적 한계를 강조하는데 광범위한 커버리지를 제공하지만 큐레이션 노력에 비해 사용 가능한 토큰 수율이 낮다는 점입니다.
이러한 비효율성을 극복하고 사전 학습을 위한 사용 가능한 한국어 토큰 수를 늘리기 위해 필터링된 CC 문서의 일부에 대해 재작성 기반 합성 재구성 전략을 개발했습니다.
거부된 샘플에 대한 수동 검사를 통해 일부 문서가 처음에는 부적절한 형식이나 콘텐츠로 인해 폐기되었지만 핵심 주제와 문장 구조가 적절하게 재구성되면 고품질 학습 자료로 변환될 수 있음을 발견했습니다.
일관된 구조적 패턴이 부족하기 때문에 이러한 문서는 규칙 기반 방법으로는 효과적으로 복구할 수 없습니다.
따라서 우리는 한국어 CC 문서를 위해 특별히 생성적 재작성 파이프라인을 개발했습니다.
이 재작성 과정은 두 가지 프롬프트 단계로 구성됩니다.
첫 번째 단계에서는 주제 분석 모듈이 문서의 중심 주제 및 관련 단락 색인을 포함한 메타데이터를 추출합니다.
이를 통해 이미지 캡션, 템플릿 기반 광고 또는 저작권 고지사항과 같이 짧고 불필요한 문장으로 종종 발견되는 문서 내의 관련 없는 조각을 필터링할 수 있습니다.
이 단계는 또한 단일 문서가 실제로 여러 관련 없는 기사를 함께 연결하는 경우를 식별하고 분리합니다.
두 번째 단계에서는 이전에 추출된 주제 구조를 기반으로 파이프라인이 주제 관련 콘텐츠에만 초점을 맞춰 발췌 및 재작성된 문서를 생성합니다. 재
작성 모델은 원본의 중심 의미를 보존하면서 노이즈를 제거하고 일관성을 향상시키는 새로운 문서를 합성합니다.
모든 재구성된 문서는 원본 CC 문서에 사용된 것과 동일한 웹 코퍼스 필터링 파이프라인을 통과합니다.
유해한 콘텐츠 편향된 언어 또는 비일관적인 구조를 포함하는 모든 재작성된 문서가 제외되도록 보장합니다. 원본 필터링된 세트와 동일한 고품질 기준을 충족하는 문서만 최종 사전 학습 코퍼스에 포함됩니다.
우리의 전략은 주로 CC에서 파생된 한국어 웹 데이터의 구조적 다양성과 복잡성을 인위적으로 향상시킵니다.
CC의 알려진 한계에도 불구하고, CC는 실제 인간 환경에서 현대 언어 사용을 밀접하게 반영하므로 가치 있는 코퍼스로 남아 있습니다.
영어권 커뮤니티에서는 CC에서 큐레이션된 여러 고품질 웹 코퍼스가 대규모 웹 데이터 필터링 방법에 대한 연구와 함께 공개되었습니다.
이러한 노력은 모델에 다양한 형식의 풍부하고 잘 구조화된 입력을 제공했습니다.
한국어 CC 코퍼스는 구조적 다양성과 주제적 폭 모두에서 제한적이며, 뉴스 기사, 블로그 및 온라인 커뮤니티 게시물과 같은 특정 형식에 크게 편중되어 있습니다.
결과적으로 영어 코퍼스에서 관찰되는 구조적 풍부함과 스타일적 복잡성이 부족합니다.
한국어 CC에는 긴 형식의 구조화된 문서나 의도 기반 형식(예: 요약, QA, 번역)의 예가 상대적으로 적은데 이는 고차원 추론 및 질문 응답과 같은 후속 작업을 위한 모델 학습에 필수적입니다.
이러한 한계를 완화하기 위해 우리 모델은 사전 학습 중 사용되지 않은 영어 웹 샘플을 한국어 텍스트로 재작성하는 교차 언어 합성 증강 전략을 통합합니다.
이 재작성된 문서는 직접적인 번역이 아니라 원본 웹 스타일과 구조적으로 다른 자연스러운 한국어 형식으로 내용을 보존하면서 재작성된 것입니다.
이 접근 방식은 관용적인 표현의 문자적 번역이나 도메인별 용어의 오해석과 같이 순진한 기계 번역에서 흔히 볼 수 있는 일반적인 번역 오류를 피하는 데 도움이 됩니다.
영어 웹 문서의 내용은 한국 대학 입시 시험의 "말하기 및 쓰기" 섹션의 질문 스타일로 변환될 수 있습니다.
이 과정에서 원본 내용은 일관된 한국어 지문으로 변환되고 독해 질문 및 답변 세트가 함께 제공됩니다.
이를 통해 모델은 풍부하게 구성된 텍스트와 QA 스타일의 감독을 모두 학습할 수 있습니다.
실제로 합성 QA 문서의 대부분은 최종 사전 학습 코퍼스에 지문 부분만 기여했으며 선택된 일부만 QA 쌍을 유지했습니다. 코퍼스에 포함된 QA 데이터셋은 CoT 기반 검증을 통해 추가로 필터링되며, 검증된 정답을 포함하는 샘플만 유지됩니다.
semantic drift 사실 불일치 또는 의도하지 않은 중복의 위험을 피하기 위해 이전에 합성된 데이터에 대한 추가 재작성은 통합하지 않기로 결정했습니다.
이 결정은 최종 코퍼스의 무결성과 품질을 보존합니다.
다단계 추론을 명시적으로 모델링하는 합성 문제 해결 시퀀스를 제공하기 위해 LongCoT 데이터셋을 구축합니다.
각 수학 또는 코드 예제에는 모델이 복잡한 작업에 필요한 추론 패턴을 학습하는 데 도움이 되도록 설계된 명확하고 논리적으로 구조화된 해결 경로가 포함됩니다.
한국어 데이터의 제한된 가용성을 보완할 뿐만 아니라 한국어로 추론하는 모델의 능력을 향상시킵니다.
모든 해결책과 설명은 주로 한국어로 작성되어 모델이 구조화된 문제 도메인에 대한 원어민 수준의 논리적 추론 능력을 개발하는 데 도움이 됩니다.
최종 데이터는 사전 학습 준비된 텍스트 세그먼트로 포맷되어 Mi:dm 2.0 학습 세트에 직접 통합됩니다.
모델에 고품질 추론 시연을 조기에 노출함으로써 이 접근 방식은 수학, 프로그래밍 및 구조화된 질문 응답 작업에서 더 강력한 성능을 지원합니다.