sLLM

lionloopy·2024년 1월 17일
0

오늘의 공부

목록 보기
14/22
post-thumbnail

언어모델은 말뭉치라고 하는 대량의 텍스트 데이터로부터 언어의 규칙과 패턴을 학습하여 새로운 문장을 생성하거나 이해하는 능력을 갖는다.
LLM: 엄청난 양의 데이터와 파라미터로 pre-training(사전 훈련)을 시키고, 다양한 자연어 처리과정에 적용하기 위해 fine-tuning(미세 조정)을 하는 방식이다. 문장 생성, 질의응답, 요약등의 작업에서 놀라운 성능을 보인다.
LLM이 언어를 학습하는 과정에는 딥러닝의 원리가 활용된다.
LLM은 문법 규칙이나 단어의 사전적 의미와 같은 구체적인 규칙은 따르지 않고,
빈도수나 문법적인 특성 등을 학습하여 문맥상 올바르게 문장을 생성할 수 있습니다.
문장속에서 이전 단어들이 주어지면, 다음 단어를 예측하거나 주어진 단어들 사이에서 가운데 단어를 예측하는 방식으로 작동합니다.
-> 시간과 비용이 많이 듬. -> sLLM이 등장함
sLLM: LLM에 가 적은 언어 모델이다. LLM보다 훈련 및 추론 시간이 짧고 비용이 저렴하다. sLLM은 특정 분야나 도메인에 맞춰 fine-tuning(미세 조정)을 통해 LLM과 비슷한 성능을 낼 수 있다.
sLLM 예시) '돌리'는 학습에 3시간이 들었고, 비용은 30달러에 불과했다.

하지만 sLLM도 완벽하진 않음 -> sLLM은 LLM보다 데이터와 파라미터가 적기 때문에 일반화에 한계가 있음. 새로운 지식을 습득하거나 창의적인 문장을 생성하는 능력이 떨어질 수 있다.

파인튜닝: 사전 학습된 언어 모델 전체를 대상으로 추가 작업 데이터를 이용해 모델을 재학습 시키는 방법. 모델 파라미터의 일부 또는 전체를 재학습하므로 작업 특정성이 높은 모델을 얻을 수 있다.
프롬프트 튜닝: 입력 텍스트에 특정 구조화된 프롬프트를 추가하거나 수정하여 모델의 동작을 조정하는 방법. 모델 출력을 조작하여 원하는 결과를 얻을 수 있도록 모델을 조정한다. 작업 특정성이 낮음

=>=> 결론적으로 LLM의 비즈니스 적용을 위해 모델 경량화와 학습 데이터 품질 향상이 중요한 과제이다.

활용:

  • 사람이 수행하는 작업을 자동화하는데 사용할 수 있음
  • LLM을 사용하여 고객의 질문에 답변하는 챗봇을 만들 수 있습니다.
  • LLM은 창의적인 콘텐츠를 생성하는데 사용할 수 있다.
  • 제품, 마케팅, 투자에 대한 더 나은 의사 결정을 내릴 수 있다.
  • 이렇게 학습된 모델을 특정 작업이나 용도에 맞게 사용할 수 있다.
  • 도메인 지식을 훈련시킨 기초 모델을 기반으로 LLM을 구축하면, 기업 맞춤형 솔루션을 구축할 수 있다.
  • 예시) 제품 리뷰 요약 업무를 시킬 수 있음

LLM 핵심 기술:

  • 스케일링: 확장(scaling up)은 대규모 데이터셋과 컴퓨팅 리소스를 활용해서 언어 모델의 성능을 더욱 향상시킨다. 대규모 데이터셋을 사용하면 더 정확하게 예측하게 된다.
    - 모델의 크기를 늘리는 방법 : 더 많은 계산 능력과 메모리를 필요로 함
    • 데이터 증강으로 모델을 확장 : 기존 데이터를 변형시켜 더 많은 데이터를 만드는 방법
      => 결국 계산 복잡도가 증가한다
      => 데이터 수집 및 정리 전략을 고려하는 게 중요하다.
  • 학습: 분산 학습을 지원하기 위해 병렬 알고리즘의 구현 및 배포를 용이하게 하는 프레임워크가 출시되었다.
  • 능력도출: 말뭉치에 대해 사전 학습을 마친 LLM은 다양한 작업을 수행할 수 있다. 하지만 LLM이 어디까지 할 수 있는지 명시적으로 알 수가 없기에, 프롬프트는 중간 추론 단계를 포함함으로써 복잡한 추론 과제를 해결하는데 유용하다.
  • 정렬튜닝: alignment tunning. 기존의 파인튜닝 방식은 입력문장과 해당하는 레이블로 이루어진 데이터셋을 기반으로 모델을 학습시키는 반면, 정렬튜닝은 입력문장과 레퍼런스 문장간의 정렬정보도 이용한다. 언어 번역과 같은 작업에서 유용하게 활용할 수 있다.
  • 도구 조작: 텍스트 형태로 잘 표현되지 않는 작업에 대해서는 성능이 떨어질 수 있다. 최근 이 문제를 해결하기 위해 외부 도구를 사용해서 LLM의 결함을 보완하는 이론이 주목받고 있다.

LLM 구축 시 유의점:

  • 사전 학습 데이터의 품질: 자연스러운 문장으로 구성되어야 다양한 문제에 대해 잘 대응할 수 있다.
  • 사전 학습 데이터의 분포: 학습 데이터의 분포가 실제 응용 분야의 데이터와 유사하다면 모델은 해당 분야의 언어 패턴과 도메인의 특징을 더 잘 학습하여 더 정확해진다. 의료분야 사용 모델은 의료 관련 텍스트 데이터로 사전학습된다.
    => 회사에서 GPT? 굳!
  • 사전 학습 데이터의 양: LLM 파라미터 규모가 커질수록 모델 학습에 더 많은 데이터가 필요하다.

LLM 구축 시 기업 주의점:

  • 기존보다 더 많은 양의 컴퓨팅 및 스토리지 소스를 필요로 한다. 즉, AI 시스템을 구축하기 위해 적절한 컴퓨팅 리소스와 인프라가 필요하다.

할루시네이션: 사실이 아닌 것을 사실처럼 말하는 환각 현상
-> 답변의 신뢰성을 확보하기 위해서는 기본적으로 신뢰도 높은 데이터를 사용해 학습하는 것이 중요하다. 그래서 해당 근거를 관련 자료로부터 찾아내는 검색기술 = RAG가 주목받는 것.

출처:
https://mgiwm.tistory.com/entry/sLLM%EC%86%8C%ED%98%95-%EC%96%B8%EC%96%B4-%EB%AA%A8%EB%8D%B8%EC%9D%98-%EC%9D%B4%EC%95%BC%EA%B8%B0%EC%99%80-%ED%99%95%EC%9E%A5-%EA%B0%80%EB%8A%A5%EC%84%B1
https://www.thedatahunt.com/trend-insight/what-is-llm

profile
기록은 담백하게, 성장은 빠르게! 🐘

0개의 댓글