Generative AI(1)

SeongGyun Hong·2024년 12월 2일

NaverBoostCamp

목록 보기
34/64

1. LLM이란?

텍스트를 입력으로 받아 적절한 출력을 산출하는 모델

  • 대량의 텍스트 데이터로 사전학습
  • Billion Sclae의 파라미터 보유

LLM 발전 현황

  • InstrucGPT/ChatGPT 출현 이후 활발히 연구 및 적용
    • 학습 방법론 관련 연구:
      Corpus정제, Instruction Tunning 등
    • 활용 연구:
      의료/법률 도메인 적용, 서비스 적용 디자인
    • 최적화 연구:
      추론 속도/메모리 사용량 최적화, 입력 문장 길이 확장 등

2. NLP 모델 발전

  • Statistical LM

    • 통계 및 어휘 빈도 기반 방법론:
      TF-IDF, BM25 등
    • 매우 제한적 태스크 적용 (검색 시스템)
    • 시스템 적용을 위한 많은 엔지니어링 비용 소모
      • 시스템 적용 위한 전용 단어사전
      • 타 시스템에는 적용 불가
    • 다만, 단어 의미 반영은 불 가능 했다.
  • Neural LM
    딥러닝 기술을 자연어 처리 분야에 적용
    단어의 의미를 고정된 크기의 벡터에 표현함 (Word2Vec 등)

    • 일붙 태스크 적용 가능(감성 분석 등)
    • 사전 학습된 언어 벡터 활용
      • 시스템 구축시 초기값 활용
    • 시스템 별 별도 모델 구축 및 학습 필요
      • 시스템 간 전이 불가
    • 단어 맥락 반영 불가
  • Pretrained LM
    사전 학습된 언어 모델 개발 및 활용

    • 대량의 코퍼스로 사전 학습된 언어 모델로써 사전 학습 및 Fine-tuning 적용
    • BERT, T5, GPT-1,2 등
    • 다양한 Task 적용 가능
      • 사전 학습을 통해 습득된 언어 정보 활용
    • 각 Task 별 Finetuning 데이터 구축 필요 X
      • 입력 문장 내 묘사를 통한 태스크 수행 가능
    • 대부분의 시스템에 적용 가능하다.
      • 단일 모델을 이용한 다양한 시스템 적용
      • Prompting을 통해 모델 생성문/Task 제어
      • 별도의 Finetuning 없이도 다양한 Task를 수행할 수 있음이 가장 큰 구별점이자 차이점!

3. LLM 활용 필요성

  • LLM은 높은 비용으로 인하여 특정 상황에서 사용된다.
    • 인간 행동 모사가 필요한 경우 - ChatBot
    • Task가 매우 어려운 경우
    • 데이터가 매우 제한적인 경우
    • 사실 정보 기반으로 생성해야 하는 경우

4. 생성형 이미지 모델

  • 생성형 이미지 모델은 특정 데이터의 분포를 기반으로 새로운 이미지를 생성하는 모델

  • 생성형 이미지 모델의 학습 목표는 특정 데이터를 생성할 확률인 likelihood를 최대화 하는 것

  • GAN
    판별자와 생성자를 적대적으로 학습하는 모델 구조

    • 판별자:
      입력 이미지가 생성된 이미지인지 진짜 이미지인지 판별
    • 생성자:
      잠재 변수 z를 입력으로 받아 학습 데이터의 분포에 가까운 이미지를 생성
  • Autoencoder, AE
    Encoder와 Decoder로 구성되어 입력 이미지를 다시 복원하도록 학습하는 모델 구조
    • Encoder:
      입력 이미지를 저차원 잠재 공간으로 매핑하여 잠재변수 z로 변환
    • Decoder:
      잠재 변수를 입력으로 사용하여 원본 이미지를 복원
    • 잠재변수 분포에 따른 구분
      • AE:
        잠재 변수 분포를 정의하지 않음
      • VAE:
        잠재 변수의 분포를 정의함
      • VQ-VAE:
        잠재 변수의 분포를 이산화하여 정의함잠재 변수의 분포를 이산화하여 정의함
  • Flow-based models
    입력 이미지를 함수 f를 통해 잠재 공간으로 변환하고 역함수 f-1 를 통해 이미지를 복원하는 구조

    • 함수f: 연속적, 미분가능, 역변환이 가능한 함수

    • 변수 변환(change of variable)을 기반으로 구성되어 있는 구조

  • Diffusion models
    입력 이미지를 forward process를 통해 잠재공간으로 변환하고 reverse process로 복원하는 구조
    • Forward process: 점진적으로 가우시안 노이즈를 추가하여 잠재공간으로 매핑하는 과정
    • Rverse process: forward process에서 추가된 노이즈를 추정하여 제거하는 과정
    • Diffusion 모델 연구 흐름
      • Algorithms
      • Connections with other Generative Models
      • Applications

생성형 이미지 모델 분야

  • Style transfer
    이미지의 스타일을 다른 이미지에 적용하는 방법
  • Inpainting
    이미지의 손상된 부분이나 누락된 ㅜ분을 복원하거나 채우는 방법
  • Image editing
    이미지를 변경하거나 개선하는 방법
  • Super-resolution
    저해상도 이미지를 고해상도 이미지로 변환하는 방법

Multi-modeal 생성형 이미지 모델

  • Text-to-Image
    텍스트를 입력으로 사용하여 이미지를 생성
  • Text-to-Video
    텍스트를 입력으로 사용하여 비디오를 생성
  • Image-to-Video
    이미지와 prompot를 사용하여 비디오를 생성
profile
헤매는 만큼 자기 땅이다.

0개의 댓글