업스테이지에서 LLM에 대한 논문을 공개했다.
논문에서는 LLM에 대한 전반적인 동향을 다루고 다음과 같은 내용을 다룬다.
- 초기의 언어모델부터 현재의 초거대 언어모델까지의 연구 및 발전과정
- 한국어 초거대 언어모델의 특징 및 최신 동향
- 최신 초거대 언어모델 연구 동향
- 초거대 언어모델의 성능 평가 방식과 그 변화
- 초거대 언어모델 연구와 활용에 있어 중요하게 여겨지는 윤리적 원칙과 관련된 최근의 동향
논문은 여기에서 볼 수 있습니다!
LLM은 최근 몇 년간 뛰어난 발전을 하고 이루고 있다.
but, 한계점과 위험성도 존재
자연어 : "인간의 언어"
자연어처리 : 자연어를 컴퓨터가 처리하는 것
(인간의 언어표현 체계를 컴퓨터가 이해할 수 있는 형태로 변환)
인간이 사용하는 단어를 컴퓨터가 이해할 수 있는 숫자 체계로 변환하는데에 초점을 맞춰 발전했다.
대표적인 방법은 one-hot encoding
이다.
하지만, 이런 방식으로는 이들 간의 의미적인 연관을 찾지 못한다.
-> 의미기반 언어모델 연구
의미기반 언어모델 연구는 단어 간의 의미적인 연관성을 고려하기 위해 dense vector 공간에 표현하는 데에 초점 맞춰 발전했다.
대표적인 의미기반 언어모델 : Word2Vector
전통적인 언어모델의 한계는 극복했지만, 문맥을 파악하지 못한다는 한계를 가지고 있다.
문맥 정보를 반영하여 언어를 표현하기 위해, 텍스트 내의 정보를 이용하는 RNN (Recurrent Neural Network) 등장했다.
RNN
(Recurrent Neural Network), LSTM
(Long Short-Term Memory), GRU
(Gated Recurrent Unit) 등이 등장했지만, 텍스트에 존재하는 단방향 문맥 정보만 활용한다는 한계를 지닌다.
ELMo는 주어진 텍스트에 존재하는 순방향 문맥 정보와 역방향 문맥 정보를 함께 활용하는 양방향 학습을 제안했다.
LSTM이 지니는 한계를 그대로 지닌다.
정보소실
발생기울기 소실 (gradient vanishing)
발생이런 한계를 해결하기 위해 Attention Mechanism과 이를 활용한 Transformer Architecture가 나왔다.
하나의 벡터에 텍스트의 모든 정보를 담는 RNN, LSTM, GRU와 다르게, 텍스트 내 단어들의 벡터들을 필요에 따라 적절히 활용하는 메커니즘
현재 언어모델의 근간이 되는 Transformer
가 Attention Mechanism을 기반으로 한다.
Transformer은 크게 인코더와 디코더로 구성
문맥기반 언어모델 이후, 모델 및 학습 데이터의 크기와 모델의 성능은 긍정적인 상관 관계를 보인다는 scailing law
가 발혀지면서, LLM
(Large Language Model) 이 등장하기 시작했다.
LLM의 능력을 잘 이끌어내기 위한 연구 분야 -> 프롬프트 엔지니어링
Prompt Engineering이란?
LLM이 모델 가중치 업데이트 없이 특정 테스크를 더욱 잘 해결하게 하기 위해, 입력으로 주는 프롬프트를 어떻게 설계할 것인지에 대한 연구 분야.
대표적인 프롬프트 엔지니어링 연구는 Chain-of-Thought(CoT)가 있다.
LLM의 조종성 (Steerability)을 높이기 위해 여러 학습 방법이 등장
GPT, PALM, Falcon, Llama, Claude, Qwen 같은 모델이 연구되고 있지만, 한국어를 비효율적으로 토큰화하고, 학습한 한국어 토큰 수가 매우 부족하다는 한계를 가진다.
이를 필요성에 따라, 최근 많은 국내 기업에서 한국어 LLM을 자체적으로 학습하기 시작했다. (Naver Clova, LG AI Research, Kako Bran 등)
오픈소스 한국어 LLM도 존재하는데 대표적인 모델이 EleutherAI의 Polyglot-Ko이다.
공개된 이 모델을 통해 미세조정 등을 하여 활발히 연구하고 있다.
이와 같이 한국어 LLM의 빠른 발전을 위해 오픈소스 한국어 LLM이 더 많이 공개되는 것이 필요하다.
한국어 LLM 학습을 위해 사용된 한국어 공개 데이터셋 : AI-Hub, 모두의 말뭉치, 위키백과, 청와대 국민 청원 등
-> 큰 도움이 되지만, 여전히 학습할 고품질 한국어 데이터가 부족하여
-> 한국어 LLM은 아직까지 사용자가 만족하기에는 불충분한 성능을 보인다.
언어 생성 및 문맥 이해 능력 등을 모델에 학습시킴으로써 LLM의 근간을 형성하는 과정이다.
사전학습을 위해 웹페이지, 책, 대화 데이터, 학술 데이터, 코드 등 다양한 종류의 이질적인 코퍼스를 혼합하여 활용하는 추세이다.
데이터의 크기와 노이즈, 중복, 독성 데이터 등의 존재로 인해 여러 문제를 야기 할 수 있기 때문에 데이터 전처리는 필수적이다.
이러한 전처리 과정은 크게 품질 필터링, 중복 제거, 개인정보 제거, 토큰화의 순으로 이루어진다.
미세조정의 대표적인 전량으로는 Instruction Tuning과 Alignment Tuning이 있다.
사전학습된 LLM을 대상으로 자연어로 이루어진 포맷팅 지시사항과 그에 대응하는 ouput 쌍으로 이루어진 데이터를 기반으로 미세조정하는 추가 훈련 과정을 말한다.
Instruction Tuning을 위해서는
태스크의 의미를 LLM이 이해할 수 있도록 관련 지시사항과 이에 대응하는 출력으로 이루어진 자연어 포맷의 데이터를 구성해야한다.
ex) 번역, 요약, QA, 일상적인 대화 데이터 등
주로 MLM 또는 NTP 형태의 목적함수를 가지고 학습
주변 또는 이전 컨텍스트를 기반으로 단어 예측
따라서, 사전학습 과정에서 인간의 선호가 반영된다고 보기 어렵다.
LLM은 종종 유해한 또는 잘못된 정보의 제공이나 편향된 표현을 생성하기도 한다.
이를 방지하기 위해 LLM을 인간의 기대치에 맞게 조정하는 human alignment
방식이 있다.
but, 이 방식은 고품질의 human feedback 수집이 필수적이기 때문에 cost가 많이 든다.
이러한 alignment criteria는 대부분 인간의 인식으로 기반으로 하므로 LLM에 최종적으로 적용하기 어렵다.
LLM을 인간의 가지와 일치시키는 방법인 RLHF(강화 학습)
제안되었다.
RLHF : 인간의 피드백을 바탕으로 보상 모델을 학습하면서 LLM을 적응시킨다.
+ 추가 예정
LLM의 계산 집약적 특성으로 인한 한계를 개선하기 위한 방법론이다.
LLM들은 수많은 모델 파라미터를 가지기 때문에, 각 미세조정 시에 모든 파라미터를 튜닝하는 것은 비용 관점에서 비효율적이다.
-> 가능한 성능을 유지하면서, 학습가능한 파라미터의 수를 줄이는PEFT (Parameter-Efficient Fine-Tuning)
Adaptor Tuning : Transformer 구조에 adaptor라 부르는 작은 신경망 모듈을 추가한다. 이는 원래 고정된 상태인 모델의 파라미터를 adaptor 모듈의 파라미터만 특정 태스크 목적을 달성하기 위해 최적화 된다.
예로는 Low-Rank Adaption (LoRA)가 있고 PEFT에 low-rank approximation을 차용한다.
LLM을 활용하는 가장 대표적인 방법 중 하나는 태스크를 해결하기 위한 적절한 프롬프팅
전량을 수립하는 것이다.
대표적인 프롬프팅 방법으로는 in-context learning (ICL)이 있다.
ICL의 이점은 다음과 같다.
1. 자연어 형태로 제공되는 시연은 LLM과이 명확하고 이해하기 쉬운 소통 방식을 제공한다.
2. 유사성에서 학습하는 인간의 의사결정 과정과 비슷한 측면이 있다.
3. 전통적인 지도학습 방식에 비해 training-free learning을 가지고 있어, 새로운 태스크 적응에 필요한 계산 비용을 크게 줄일 수 있으며, 확장 가능한 (scalable) 특성을 지닌다.
추론 능력을 보다 강화하기 위해 연구로 CoT가 소개되었다.
CoT 프롬프팅은 입력-출력 매핑을 여러 중간 단계로 분해함으로써,
산술 추론, 상식 추론 및 기호 추론 등의 복잡한 추론 태스크에서 LLM의 성능을 향상 시킬 수 있다.
이런 내재적인 한계를 해결하고 적은 수의 파라미터로도 목적을 달성할 수 있도록, LLM을 추론 (reasoning) 및 도구 사용 (use tools) 관점에서 강화한 모델을 Augmented LLMs이라 부른다.
* RAG (Retrieval Augmented Generation)
LLM이 외부의 지식 또는 정보에 효과적으로 접근하여 활용할 수 있다면,
모든 지식을 내부에 저장하는 것 대신, 필요한 정보를 외부에서 추출해 사용하면 파라미터 수를 줄일 수 있다.
이를 RAG라고 한다.
* Other Tools
기존의 벤치마크 데이터셋 : 고도의 언어 이해 능력, 일반 상식기반의 추론 능력
LLM 등장 이후 벤치마크 데이터셋의 유효성은 크게 낮아지고 변별력이 줄어들고 있다. 벤치마크 데이터셋은 LLM의 정확한 평가를 내는데 적합하도로 보기 어렵다.
즉, LLM이 얼마나 적절하게 발현할 수 잇는지에 대한 새로운 평가 척도의 개발이 절실하다.
HuggingFace는 OpenLLM Leaderboard를 공개하면서, 벤치마크 데이터셋을 통해 LLM의 성능을 체계적으로 평가하고 있다.
LLM이 여전히 정복하지 못한 추론능력, 환각현상, 상식능력 등을 종합적으로 검증할 수 있는 리더보드이다.
평가 방법
한국에서도 Open LLM leaderboar가 운영되고 있다. (Open Ko-LLM leaderboard)
평가 방법
한국의 대표적인 Open LLM인 Polyglot-Ko, KULLM22, KoAlpaca23와 더불어 42MARU24, ETRI25, Maum.AI26 등 다양한 기업들이 참가하고 있다.
다양한 윤리 원친에 명시된 내용은 6가지로 구분된다.
1. 인간성 (Humanity & Human-centered)
2. 책임성 (Responsibility & Accountability)
3. 보안성 (Privacy & Security)
4. 안전성 (Safety & Reliability)
5. 투명성 (Transparency & Explainability)
6. 다양성 (Fairness & Diversity)
[각 기업마다 인공지능 윤리원칙 제시]
교육, 의료, 금융, 제조 등 다양한 산업 분야에서 LLM의 활용 가능성을 넓혔지만, 편향성, 안전성, 설명 가능성 및 쇠신성 문제는 LLM의 한계점으로 지속적으로 고려되어야하고, 문제를 해결하기 위해 중요한 도전 과제로 남아있다.