Mistral과 MoE 이란? (연산 효과적인 LLM모델)

티튠즈·2024년 2월 24일

개요

최신 연산 효과적인 대규모 언어 모델(Large Language Models, LLM) 중 하나인 Mistral에 대해 자세히 알아보겠습니다. Mistral은 어떻게 기존의 LLM보다 더 효율적으로 설계되었는지, 그리고 그것이 어떻게 인공지능 연구 및 응용에 혁신을 가져올 수 있는지에 대해 탐구합니다.

Mistral 논문에서 언급된 AI 모델 성능은 어떤가요?

미스트랄 7B 논문에 대해서 조사하다가 'Mixture of Experts'라는 모델을 접하게 되었어요.
구글 딥마인드 출신의 인원이 창립한 미스트 AI에서 개발한 LLM 모델로 7b 모델과 라마 13b 모델보다 우수한 성능을 보였어요.
이를 위해 사용된 기법들로는 GQA, SWA, Rolling Buffer Cache, Pre-fill and Chunking 이 있었어요.
이런 용어들은 리소스 관련 내용이어서 이해하기 어렵지만, 설명하고자 해요.

chatGpt 모델과 Llama2 경쟁 모델을 비교하면?
인스트럭터 모델도 13B를 채용해 Llama2를 주요 경쟁 모델로 삼았고, 논문에서도 속도와 성능에서 월등한 것을 주장해요.
안정적인 성능을 위해 '슬라이딩 윈도우 어텐션' 기법을 사용하여, 기존 바닐라 어텐션에서는 하지 않았던 '맥시멈 윈도우 사이즈'를 도입하면서 전체적인 입력에 대한 정보를 제공하며, 레이턴시와 메모리 이슈를 개선하려는 노력을 했어요.
논문 결과, '맥시멈 윈도우 사이즈'를 도입함에 따라 정보 선실이 더 적어지지만, 기존 모델들과 비교해서는 성능이 매우 우수하다는 결과가 나왔어요.

GQA 기법이란 무엇인가?

우리는 매일 수많은 질문들에 직면합니다. 때로는 그 답을 찾기 위해 인터넷을 뒤지기도 하고, 전문가에게 문의하기도 합니다. 하지만 상상해보세요. 인공지능이 복잡한 질문에도 정확하고 자세한 답을 제공한다면 어떨까요? 바로 이 지점에서 Generative Question Answering(GQA) 기법이 빛을 발합니다.

GQA는 기본적으로 복잡한 질문에 대해 답변을 생성하는 데 초점을 맞춘 기술입니다. 이 기술은 대규모 언어 모델(Large Language Models, LLM)에 의해 사용되며, 질문을 이해하고, 필요한 정보를 찾아내며, 그것을 바탕으로 답변을 제작하는 과정을 포함합니다.

첫 번째 단계는 '질문 이해'입니다. 여기서 모델은 사용자가 무엇을 묻는지, 그리고 그 질문의 목적이 무엇인지를 정확히 파악합니다. 이 과정에서 질문의 의도뿐만 아니라 필요한 정보의 유형도 인식해야 합니다. 예를 들어, "서울의 평균 기온은 어떻게 되나요?"라는 질문에서는 서울이라는 위치와 기온이라는 정보 유형을 인식하는 것이 중요하죠.

그 다음 단계는 '정보 검색과 통합'입니다. 이 단계에서는 모델이 자신의 지식 베이스에서 필요한 정보를 찾아내고, 그것을 통합하여 답변을 구성합니다. 이 과정에서 중요한 것은 문맥적 이해와 다양한 정보 소스에서 지식을 통합하는 능력입니다. 여러 정보 조각들을 하나의 응집력 있는 답변으로 만드는 것이죠.

마지막 단계는 '답변 생성'입니다. 이 단계에서는 이전 단계에서 이해하고 통합된 정보를 바탕으로 사용자의 질문에 알맞는 답변을 생성합니다. 중요한 것은 답변이 자연스러우면서도 사용자가 이해하기 쉬워야 한다는 것입니다.

GQA 기법의 핵심은 인공지능이 단순히 정보를 재구성하는 것을 넘어서, 문맥 이해, 논리적 추론, 다양한 정보 소스의 지식 통합 등의 고급 인지 기능을 통해 질문에 대한 의미 있는 답변을 생성할 수 있다는 점입니다. 이는 우리가 인공지능에게 더욱 복잡하고 다양한 질문을 할 수 있게 되었음을 의미하며, 궁극적으로 인공지능의 사용 가능성을 크게 확장합니다.

SWA는 무엇인가?

SWA는 학습 과정에서 생성되는 파라미터들의 가중치를 평균화해, 모델의 과적합을 줄이고 일반화 능력을 향상시키는 기술입니다. 간단하게 말하자면, 모델 학습의 여러 단계에서 얻어진 파라미터의 ‘평균값’을 취해 최종 모델을 만드는 방법입니다. 이 과정은 마치 여러 차례의 레시피 시험을 통해 ‘최고의 맛’을 찾아내는 과정과 유사하다고 볼 수 있습니다.

SWA를 적용하는 과정은
표준 학습 과정 수행: 모델은 경사 하강법 등의 표준 학습 방법을 통해 점차 최적화됩니다. 이는 마치 요리사가 기본적인 조리 방법을 익히는 과정에 비유할 수 있겠죠.

SWA 시작 시점 결정: 모델이 어느 정도 학습이 진행되고, 성능이 수렴하기 시작하면 SWA를 도입하기로 결정합니다. 요리에서 최적의 맛을 내기 위해 비법 재료를 추가하는 타이밍과 비슷합니다.

가중치 평균화: 일정 간격으로 모델의 스냅샷을 취하고, 이들의 가중치를 평균화해 새로운 모델 파라미터 세트를 생성합니다. 요리의 여러 시도를 통해 얻은 '최고의 맛'을 재현하는 과정이라 할 수 있습니다.

최종 모델 평가 및 사용: 평균화된 파라미터로 구성된 최종 모델을 평가하고 사용합니다. 이는 마치 여러 번의 시도 끝에 완성된 요리를 손님에게 제공하는 순간에 비유될 수 있습니다.

SWA의 장점은
통합성: SWA는 추가적인 리소스나 복잡한 아키텍처 변경 없이 기존 학습 과정에 쉽게 통합될 수 있는 점에서 매력적입니다.
안정성과 일반화 능력 향상: 과적합의 위험을 줄이면서 모델의 안정성과 일반화 능력을 향상시킬 수 있습니다.

Rolling Buffer Cache는 무엇인가?

대규모 언어 모델은 수많은 텍스트 데이터를 처리하고 이해하여, 우리가 던지는 질문에 답하거나 새로운 문장을 생성합니다. 하지만 이렇게 방대한 양의 데이터를 효율적으로 관리하지 않으면, 모델의 성능은 물론이고 실행 속도에도 큰 영향을 줄 수 있죠. 여기서 Rolling Buffer Cache 기술이 빛을 발합니다.

Rolling Buffer Cache는 모델이 처리하는 데이터 스트림이나 입력 시퀀스를 효과적으로 관리하는 방법입니다. 이 기술을 사용하면, 모델은 가장 최근의 입력 데이터만을 유지하고, 더 이상 필요하지 않은 데이터는 자동으로 제거합니다. 이는 마치 컴퓨터가 작업을 수행할 때 필요하지 않은 프로그램을 닫아 메모리를 확보하는 것과 유사합니다.

가장 중요한 데이터만을 유지함으로써, Rolling Buffer Cache 기술은 모델의 응답 시간을 줄이고, 성능을 향상시킵니다. 복잡한 연산을 필요로 하는 대규모 언어 모델에서는, 이 기술이 없다면 상상할 수 없을 정도로 많은 시간과 리소스가 소모될 것입니다. 계산된 중간 결과나 자주 접근하는 데이터를 캐시에 저장해두고, 필요할 때 즉시 사용할 수 있게 함으로써, 모델은 더욱 빠르고 효율적으로 작업을 수행할 수 있습니다.

Rolling Buffer Cache는 대규모 언어 모델이 더욱 빠르고 효율적으로 데이터를 처리하도록 도와주는 핵심 기술입니다. 이를 통해 인공지능은 제한된 컴퓨팅 리소스 안에서도 방대한 양의 언어 처리 작업을 수행할 수 있게 되었습니다. 이 기술의 발전과 적용은 앞으로 인공지능의 성능을 한 단계 더 끌어올릴 것이며, 우리 생활을 더욱 편리하고 지능적으로 만들어줄 것입니다.

Pre-fill and Chunking

LLM(Large Language Models)에서 Pre-fill은 모델이 주어진 컨텍스트나 프롬프트를 바탕으로 누락된 정보나 초기 입력 데이터를 자동으로 채우는 기능을 의미합니다. 이 방식은 모델이 사용자의 질문이나 입력된 텍스트를 더 잘 이해하고, 맥락적으로 관련된 내용을 예측하여 보다 정확하고 관련성 높은 응답을 생성하도록 돕습니다.

Chunking은 크고 복잡한 데이터 세트를 더 작고 관리하기 쉬운 단위로 나누는 과정입니다. LLM에서는 이 방법을 통해 대용량의 텍스트 데이터를 효율적으로 처리할 수 있습니다. 각 '청크'는 모델에 의해 독립적으로 처리되며, 처리된 결과는 최종 출력을 생성하기 위해 결합됩니다. 이는 데이터의 처리 속도를 향상시키고, 메모리 사용량을 줄이는 데 도움이 됩니다.

생각해보세요. 여러분이 대화 중에 갑자기 말을 잊어버렸을 때, 상대방이 문맥을 파악해 여러분이 하려던 말을 대신 완성해준다면 얼마나 고마울까요? Pre-fill은 바로 이러한 역할을 합니다. 사용자의 입력에서 빠진 정보를 LLM이 스스로 찾아내고 채워넣어, 더 풍부하고 정확한 응답을 생성합니다. 이는 마치 어떤 이야기를 듣다가 누락된 부분없이 완전한 스토리를 상상하는 것과 같습니다.

대용량 데이터를 처리하는 것은 언제나 큰 도전입니다. 하지만 'Chunking' 기술을 통해, 대규모 언어 모델은 이 대량의 정보를 작은 '조각'으로 나누어 더 쉽게 소화할 수 있습니다. 이는 마치 복잡한 문제를 해결하기 위해 작은 단계로 나누어 접근하는 것과 유사합니다. 각 조각은 개별적으로 처리되며, 모든 조각이 처리된 후에는 최종 결과로 다시 조합됩니다. 이 과정을 통해, 모델은 효율적으로 데이터를 관리하고 처리 속도를 향상시킬 수 있습니다.

LLM에서 MoE란 무엇인가?

MoE는 '전문가의 혼합'이라는 뜻을 가지고 있으며, LLM의 효율성과 성능을 획기적으로 개선하는 새로운 아키텍처입니다. 기본적인 LLM이 모든 입력에 대해 모든 파라미터를 동원하는 밀집형(dense) 모델이라면, MoE는 여러 전문가 모델을 활용하는 희소(sparse) 모델이에요. 즉, 각각의 전문가 모델이 특정 유형의 입력에 최적화되어 있어 필요한 전문가만을 동원해 처리합니다. 이는 마치 고장 난 자동차를 정비소에 가져갈 때, 엔진 전문가, 전기 전문가 등 필요한 전문가만 바로바로 처리해주는 것과 유사해요.

이로 인해 MoE는 기존 LLM 대비 효율성과 성능, 그리고 확장성에서 큰 장점을 가지게 됩니다. 예를 들어, 효율성이란 MoE가 필요한 파라미터만 사용하기 때문에 계산량이 줄고 추론 속도가 빨라진다는 것을 의미해요. 성능 면에서는 각 전문가 모델이 특화된 처리를 하기 때문에 더욱 정확하고 유연한 결과를 얻을 수 있고요. 또한, 새로운 전문가 모델을 쉽게 추가할 수 있어서, 다양한 작업에 더욱 잘 맞출 수 있는 확장성을 제공합니다.

MoE의 작동 방식을 간단히 살펴보자면, 먼저 입력 텍스트는 토큰화되고 벡터로 변환됩니다. 이후 게이팅 메커니즘을 통해 각 토큰에 가장 적합한 전문가 모델이 선택되고, 해당 모델은 토큰 벡터를 처리해 출력 벡터를 생성합니다. 마지막으로, 모든 전문가 모델의 출력이 결합되어 최종 결과물을 만들어냅니다. 이 과정을 통해, MoE는 더욱 빠르고 정확한 응답을 가능하게 해요.

티튠즈

이전 포스트

실습1 - 프롬프트 엔지니어링 마스터

다음 포스트