260128 [ Day 21 ] - AI (10)

TaeHyun·2026년 1월 28일

TIL

목록 보기
144/182

시작하며

오늘은 내일 시험을 대비해서 이번 AI 파트를 전체적으로 복습한 뒤 발표 준비를 위한 데이터 찾기 및 PPT 제작을 하는 시간을 가졌다.

통계학

Statistics(통계학)

  • 데이터 수집 및 분석
  • 불확실성의 계량화 및 예측
  • 합리적인 의사결정

Logic(논리학)

  • Induction(귀납추론)
    • 구체적인 사례 → 일반적인 원리 / 결론
    • 결론읜 개연적이지만 필연적이지 않음
      • 소크라테스도 죽고, 아리스토 텔레스도 죽었다 → 모든 사람은 죽는다
  • Deduction(연역추록)
    • 일반적인 원리 → 구체적인 결론
    • 전제가 참이면 결론도 참이 됨
      • 모든 사람은 죽는다 → 스크라테스는 사람이다 → 소크라테스는 죽는다(3단 논법)

통계학의 종류

  • Descriptive Statistics(기술통계)
    • 데이터를 기술하는 통계 기법
    • 주요 기법
      • 중심경향치(Central Tendency)
      • 산포도(Variation)
  • Inferential Statistics(추론통계)
    • 데이터로 추론하는 통계 기법
    • 주요 기법
      • 추정
      • 가설검정

기술통계 - Central Tendency(중심경향치)

  • 데이터 전체를 대표하는 중심 위치를 나타내는 것
  • 대표값(Representative Value)
    • 평균(Mean) : 데이터의 총합 / 데이터개수
    • 중앙값(Median) : 가운데 위치한 값
    • 최빈값(Mode) : 가장 자주 나타나는 값

데이터의 종류

  • 수치형 데이터(Numerical Data)
    • 연속형 데이터
      • 무수히 많은 실수 값(온도, 시간, 몸무게 등)
    • 이산형 데이터
      • 셀 수 있는 정수 값(방문객 수, 인구 수 등)
  • 범주형 데이터(Categorical Data)
    • 순서형 데이터
      • 순서가 있는 데이터(학점)
    • 명목형 데이터
      • 순서가 없는 데이터(성별, 혈액형)

데이터의 변환

  • 범주화(Binning)
    • 수치형 데이터를 구간으로 나누어 범주형으로 변환
      • 나이를 10대, 20대로 변환
  • 수치화(Encoding)
    • 범주형 데이터를 0, 1, 2와 같은 숫자로 변환
      • 남자를 1/3, 여자를 2/4로 변환

AI가 사용하는 기술통계 산포도 기법

  • 범위(range) : 최대값 - 최소값
    • 이상치(outlier)에 영향을 많이 받음
  • 편차(Deviation) : 평균 또는 중앙값을 뺀 것
    • 평균편차 : 데이터와 평균 사이의 거리
      • 데이터셋의 편차 총합이 0
      • 인공지능 학습 시 진동 발생
    • 절대편차 : 편차에 절대값을 씌움
      • 미분이 어려움
    • 분산(Variance) : 편차 제곱의 평균(손실 함수 계산 시 사용)
      • 분산을 사용하면 단위도 제곱이 됨
    • 표준편차 : 분산에 루트를 씌움
      • 데이터 전처리 Normalization에서 사용
    • 상대표준편차 : (표준편차 / 평균) x 100%

표준화의 필요성

  • Standardization(표준화) : (데이터 - 평균) / 표준편차
  • Z-Score(표준화 점수) : 데이터가 표준편차로부터 몇 배만큼 떨어져 있는지를 나타내는 표준화된 값

표준정규분포표

  • 학습 데이터를 정규분포표로 바꾸는 것이 중요

인과관계 & 상관관계

  • 인과관계(Causation) : 한 변수가 다른 변수의 변화를 직접적으로 일으키는 관계
  • 상관관계(Correlation) : 한 변수가 변할 때 다른 변수도 함께 변하는 경향

상관계수(Correlation Coefficient)

  • 피어슨 상관계수 공식
  • 상관관계의 선형성 : -1 ~ 1 사이로 표현
  • 상관계수가 0보다 작으면 음의 상관관계
  • 상관계수가 0보다 크면 양의 상관관계

Inferential Statistics(추론통계)

  • 추론통계 : 일부 표본 데이터를 분석하여, 모집단 전체의 특성을 추정
    • Population(모집단) : 통계 조사의 전체 대상 집단
    • Sample(표본) : 모집단에서 추출한 일부 집단
  • 표본을 통한 추론
    • Parameter(모수) : 모집단의 실제 평균이나 분산
    • Statistic(통계량) : 표본에서 계산된 평균이나 분산

인공지능

머신러닝

  • 데이터를 통해 스스로 성능을 개선하는 인공지능 구현 방법

머신러닝의 3요소

  • 데이터 기반 학습
  • 패턴 인식
  • 자율적 개선

머신러닝의 대표적인 학습 방법

  • Supervised Learning(지도학습)
  • Unsupervised Learning(비지도학습) → 거의 사용 X
  • Semi-supervised Learning(준지도학습)
  • Reinforcement Learning(강화학습)

머신러닝 Workflow

  • Raw Data Set
    • 가공되지않은 데이터(원시데이터)
  • Feature Extraction
    • 특징 추출
      • 이미지 → 픽셀 값, 텍스트 → 단어 빈도
    • 데이터 전처리(결측치 처리, 정규화, 스케일링 등)
      • 표준정규분포표
    • 복잡한 데이터에 대한 이해도를 높이는 과정
  • Algorithm Study
    • 알고리즘을 사용해서 학습
  • Output
    • 결과 도출

머신러닝의 목적

모델의 일반화 능력을 향상시키는 것

Supervised Learning(지도학습)

  • 반복 학습을 통해 에러를 줄이며 모델을 개선시키는 학습 방법
    • 학습목적 : 모델의 에러 최소화
  • 정답(Label)이 있는 데이터로 학습시키는 방법
  • 에러 발생 시 더 많은 데이터로 학습 또는 재학습
    • 에러(Loss) : 모델이 예측 값과 정답 데이터의 차이
  • 대표 알고리즘
    • Classification
    • Regression
    • Decision Tree

Unsupervised Learning(비지도학습)

  • Label이 없는 데이터로 학습시키는 방법
  • 패턴, 관계를 찾아내는 학습 방법(최근에는 거의 사용X) → 군집화
  • 대표 알고리즘
    • Clustering

Semi-supervised Learning(준지도학습)

  • Label이 있는 일부 데이터와 Label이 없는 대량의 데이터로 학습시키는 방법
    • Label 데이터는 약 20% 정도
  • 데이터 양은 많은데, Labeling 비용이 비싼 분야
    • 의료 분야
  • 대표 알고리즘
    • Self-Training
    • Co-Training

Reinforcement Learning(강화학습)

  • 에이전트가 환경속에서 시행착오를 통해 보상을 최대화하는 최적의 행동을 학습하는 머신러닝 기법
    • 에이전트(Agent) : 학습하고 행동하는 주체
    • 환경(Environment) : 에이전트가 상호작용하는 세계
    • 보상(Reward) : 특정 행동에 대한 긍정적 또는 부정적 피드백(점수)
    • 행동(Action) : 에이전트가 특정 상태에서 취하는 선택

주의해야 할 점

  • Overfitting(과적합)
    • 모델이 학습 데이터를 지나치게 외우는 현상
    • 학습한 데이터에 대해서는 성능이 매우 좋지만, 새로운 데이터에서는 성능이 급격하게 떨어짐 → 일반화 능력이 떨어짐
  • Black Box 문제
    • 결과는 맞는데 이유를 설명할 수 없음
  • Dependent on data quality(데이터 품질에 의존적)
    • GIGO : Garbage In, Garbage Out
    • 데이터 수집, 정제, Labeling이 모델 설계보다 중요한 경우가 많음

How to solve overfitting

  • Regularization(정규화)
  • Feature Selection
    • Feature 수 줄이기
    • Feature 수가 많으면 가설 함수의 차수가 높아짐
    • Underfitting 조심

Regularization

  • 모델의 복잡도에 패널티를 부여하여, weight(가중치)가 커지는 것을 방지
  • Norm : 가중치 측정 방법
  • L1 : Lasso Regularization
    • 가중치의 절대값 합에 비례하는 패널티를 손실함수에 추가
    • 일부 가중치를 0으로 만듦
    • 모델의 일부 특성을 사실상 제거하며, Feature Selection에 유용
  • L2 : Ridge Ragularization
    • 가중치의 제곱 합에 비례하는 패널티를 손실함수에 추가
    • 가중치 값이 전체적으로 너무 커지지 않도록 제한

딥러닝

여러 layer의 신경망을 사용하여 학습하는 방법

Perceptron

뉴런을 따라 만든 인공신경망의 최소 단위

입력값(x)에 가중치(w)를 곱하고 편향(b)를 더한 뒤,

활성화 함수 필터를 통과시켜 최종 신호를 만들어내는 수학적 모델
Linear Function → Activation Function(필터링) 순서로 동작

Linear Function of Perceptron

y=f(i=1nwixi+b)y = f(\sum_{i=1}^{n} w_i x_i + b)
  • Activation Function에 전달하기 전에 Raw Score를 생성하는 과정
  • Weight(가중치) : 데이터의 중요도
  • Bias(편향) : 데이터의 민감도
  • wixi+bw_i x_i + b = y=ax+by=ax+b
    • 1차 함수 : Linear Function
    • 가중합 + 편향
  • Linear Combination(선형결합)

Activation Function(활성 함수)

  • Linear Function의 점수를 보고 다음 Percentron으로 보낼지 말지 결정하는 함수
    • 데이터를 얼마나 전달할지 결정
    • 비선형성 부여
    • 결과를 결정하는데 기여(출력층, 분류 시)
  • Activation Function의 종류
    • Step Function, Sigmoid, ReLU, Softmax

Step Function

  • 1 또는 0(Binary Step Function)
  • 계단형 그래프

Sigmoid

  • 0과 1사이의 부드러운 확률 표현
  • S 모양 그래프
  • 이진분류 시 사용

ReLU(Rectified Linear Unit)

  • 종합점수가 마이너스면 0, 플러스면 점수 그대로
  • 0이하는 0, 0초과 시 기울기가 1인 직선

GeLU(Gaussian Error Linear Unit)

  • GPT, BERT 모델에서 사용

Softmax

  • 출력층에서 사용되는 활성함수(다중분류)
  • 확률화
    • 모든 출력값을 0과 1사이로 압축(Soft Decision)
    • 모든 출력값의 합이 1이 되게 만듦

Single Layer Perceptron(SLP, 단층 퍼셉트론)

  • 1969년 Marvin L. Minsky에 의해 단층 퍼셉트론은 XOR 연산을 못함이 증명됨

Multi Layer Perceptron(MLP, 다층 퍼셉트론)

  • 여러 층의 퍼셉트론을 순차적으로 쌓아 올린 인공신경망
    • Input Layer(입력층)
    • Hidden Layer(은닉층)
    • Output Layer(출력층)
  • 복잡한 비선형 문제 해결 가능
  • 1974년 Backpropagation(역전파) 알고리즘 논문 등장
  • 1986년 Geoffrey Hinton이 Backpropagation으로 MLP 학습 증명
  • 1990년대 Vanishing Gradient(기울기 소실) 문제로 한계를 느낌

Deep Neural Network

  • 2000년대 정보화 시대가 되면서 데이터 폭증
  • 2010년 Geoffrey Hinton이 학습에 ReLU 사용하여 논문 발표
  • 2012년 GPU의 재발견

Transformer 아키텍처의 등장

  • 2017년 Google DeepMind 팀 Attention Is All You Need 논문 발표
  • GPT(Generative Pre-trained Transformer)
  • BERT(Pre-training of Deep Bidirectional Transformers for Language Understanding)

딥러닝 훈련 원리

  • Forward Propagation(순전파)
  • Loss Calculation(손실 계산)
  • Backpropagation(역전파)
  • Weight Update(가중치 업데이트)

Forward Propagation(순전파)

  • 입력 데이터가 가중치와 활성 함수를 거쳐 은닉층을 통과하고 출력층에서 예측결과(Prediction)를 생성

Loss Calculation(손실 계산)

  • 생성된 예측결과와 실제 정답을 비교해서 Loss Function(손실함수)을 통해 Error를 계산
    • Error(오차) : 정답 데이터와 예측 데이터 사이의 차이(정답 - 예측) yy^y-\hat{y}

손실함수(Loss Function) : Error(차이)를 계산하는 방법

  • MAE (Mean Absolute Error : 평균 절대 오차)
  • MSE (Mean Squared Error : 평균 제곱 오차)
    • 에러에 더 민감하게 반응

Gradient Descent(경사하강법)

  • 오차를 줄이면서 모델이 더 나은 예측을 할 수 있도록 최적화하는 과정

Backpropagation(역전파)

  • 계산된 오차를 줄이기 위해, 오차를 신경망 역방향으로 이동하며, 각 층의 가중치에 대한 오차 기울기를 계산

Weight Update(가중치 업데이트)

  • 역전파 단계에서 계산된 기울기를 이용해서 경사하강법으로 가중치 조정

Confusion Matrix

실제 정답실제 오답
예측 정답True Positive(TP)False Positive(FP)
예측 오답False Negative(FN)True Negative(TN)
  • Accuracy(정확도) : (TP+TN) / 전체
  • Recall(재현율, 민감도) : TP / TP+FN
  • Precision(정밀도) : TP / TP+FP

Recall과 Precision는 trade-off 관계

생성형AI

생성형AI

  • 기존 데이터에서 패턴을 학습하여 새로운 콘텐츠(텍스트, 이미지, 오디오 등)를 스스로 생성하는 기술
  • 창의적인 결과물을 생성하는 것이 목표(기존 데이터 < 출력 데이터)

AGI / ASI

  • AGI(Artificial General Intelligence)
    • 모든 부분에서 보편적으로 인간의 지능보다 뛰어남
  • ASI(Artificial Super Intelligence)
    • 초지능

판별형 AI

  • 유저가 준 데이터보다 적은 데이터를 반환(자율 주행 등)
  • 판별형 AI ↔ 생성형 AI

생성형 AI 핵심 알고리즘

  • CNN
  • RNN
  • GAN
  • Transformer
    • LLM
    • Multi-modal
    • ViT(Vision Transformer)
    • Diffusion(학습 방법)

AI Agent 서비스(Chat GPT, Gemini, Claude 등)

  • Chat GPT
    • AI 서비스 대중화의 시작
    • 전 영역 균형 잡힌 성능
    • 엄격한 윤리·갈등 회피
  • Gemini
    • 글 검색·워크스페이스 통합, 사용자 데이터 기반 최적화. 가성비가 좋음
    • 데이터 분석·요약·추출 특화
  • Claude
    • 난도 추론 및 전문적인 글쓰기 특화
    • '헌법적 AI' 설계
  • Grok
    • 실시간 X(트위터) 데이터 연동을 통한 최신 이슈 및 트렌드 즉각 반영
    • 안티 PC 및 비검열 지향
  • Perplexity
    • 검색 특화 정답 엔진, 실시간 웹 리서치 및 정보 요약
    • 철저한 팩트·출처 중심, 중립적 정보 전달, 환각(Hallucination) 최소화

LLM

LLM 이란

  • Large Language Model(대규모 언어 모델)
  • 방대한 텍스트 데이터를 학습해 인간의 언어를 이해하고 생성하는 인공지능 모델
  • Transformer 아키텍처를 기반으로 하며, 다음 단어를 예측하는 방식으로 작동

Language Model

Language Model은 Corpus의 분포(패턴)를 학습

  • Corpus
    • 특정 집단 내에서 사용한 단어들을 모아서 정리해둔 것
    • 언어모델이 학습하는 단위
  • 언어 모델은 Corpus의 말투까지 학습

Domain Shift

  • 학습한 모델가 실제 사용 데이터의 도메인이 다른 것
  • 도메인 시프트가 크면 언어모델 성능이 크게 떨어짐

Preprocessing(전처리)

언어 모델이 학습하기 좋은 형태로 데이터 가공

  • Stopword(불용어) 제거 : 실질적인 의미가 적은 단어 제거
    • LLM에서는 제거X
  • Deduplication(중복 제거) : 외우기 쉬운 데이터 구조를 줄여 일반화를 도움
  • PII Filtering(개인정보 제거) : 안전/법적 리스크 낮춤
  • 저품질/스팸 제거 : 출력 품질에 직접적인 영향을 줌

Split

  • 데이터 셋 분할 : Train Set과 Test Set으로 분할
  • 모델의 단순 암기(Memorization) 방지 및 실제 실력인 일반화 능력(Generalization) 검증

Leakage

  • 데이터 누수(Data Leakage) : Train Set에 Test Set 데이터가 섞이는 것
  • 모델이 테스트 셋을 암기해서 일반화 능력이 떨어짐

Text Data

텍스트 데이터는 순차성을 가진 이산 기호**

  • Discrete Symbol(이산 기호)
    • 텍스트는 연속값이 아닌 Discrete Symbol
  • Sequentiality(순차성)
    • 단어나 문장을 순서에 따라 배열
    • 순서에 따라 의미가 크게 달라짐
    • 인공지능에선 문장을 Sequence라고 표현

Analog & Digital

  • Analog : 연속적으로 변하는 물리량이나 데이터를 연속적인 값으로 표현하는 방식
  • Digital : 이산적인 숫자, 문자 등의 신호로 표현하는 일

Sampling(표본화)

  • 연속적인 아날로그 신호를 일정한 간격으로 잘라 디지털 데이터로 변환하는 것
    • 시간 축을 이산적으로 만드는 것

Quantization(양자화)

  • 연속적이거나 높은 정밀도의 데이터를 유한한 개수의 이산적인 값으로 근사하여 표현하는 과정
    • 진폭 축을 이산적으로 만드는 것

Tokenization

  • Token : 언어 모델 입력의 최소 단위(단어X)
  • 언어마다 Word Boundary(단어 경계)가 애매함

Word Boundary

  • Linguistics
    • 영어의 특성 : 공백 → 단어의 경계
    • 한국어의 한계 : 어근에 조사가 붙는 교착어 구조
  • OOV(Out-of-Vocabulary, 미등록어)
    • 언어모델의 어휘집에 없는 어휘가 나오면 성능이 떨어짐 → 일반화 능력 저하

Vocabulary

  • 딥러닝은 행렬곱 연산
    • Vocabulary가 커지는 만큼 연산량 증가
  • 언어 모델은 확률적 추론 시스템이기 때문에 출력층에 Softmax 함수 존재
    • Softmax 함수식 : α(Z)i=eZij=1VeZj\alpha(Z)_i = \frac{e^{Z_i}}{\sum_{j=1}^{V} e^{Z_j}}
    • Vocabulary가 커지는 만큼 후보(V) 증가

Subword Tokenizer

  • Subword
    • 단어(Word) 단위보다는 작고, 문자(Character) 단위보다는 큰, 단어와 문자 사이의 중간 형태
    • 예시 : Unbelievable → Un + believ + able
  • Tokenizer
    • 토큰화 도구
  • Subword로 학습시키면 OOV가 줄어듦
  • 형태론적 유사성 학습

BPE / WordPiece / Unigram LM

  • BPE(Byte Pair Encoding)
    • 가장 직관적이고 널리 쓰이는 방식
    • 가장 많이 붙어서 나오는 문자 쌍을 하나의 단위로 합침
  • WordPiece
    • 구글에서 개발(BERT의 핵심 토큰화 기법)
    • 단순 빈도만 보는 게 아닌, 둘을 합쳤을 때 전체 데이터의 (의미가 생기는)확률(Likelihood)이 얼마나 올라가는지를 확인
  • Unigram LM
    • 처음에는 가능한 모든 조각을 어휘집에 다 넣고, 버려도 영향이 적은 조각들을 하나씩 지워나감

Special Token

언어 모델이 문장의 구조를 더 잘 이해하도록 Tokenizer가 추가하는 툭스한 마커

  • BOS(Begin Of Sequence) : 문장 시작점을 알리는 특수 토큰
  • EOS(End Of Sequence) : 문장 종료점을 알리는 특수 토큰
  • PAD(Padding) : 문장 길이를 맞추기 위한 특수 토큰
    • 배치 프로세싱을 위해 모든 문장의 토큰을 통일

Numericalization(수치화)

텍스트를 숫자로 변환하는 것

  • 딥러닝은 행렬곱 기반이기 때문에, 입력은 결국 숫자가 되어야 함
  • 토큰(텍스트) → Token ID(정수)

Embedding

거대한 고차원 공간상의 Vector로 변환하는 기술(숫자에 의미를 부여)

  • Token ID의 한계 : 단순히 번호만 매겨진 상태에서는 단어 간의 연관성을 알 수 없음
  • Vector Space
    • 의미가 비슷한 단어는 가까운 곳에 배치
    • 의미가 다른 단어는 먼 곳에 배치
  • Vector Arithmetic
    • 벡터 산술 연산
  • 임베딩 매트릭스(Embedding Matrix)
    • 각 토큰 ID에 해당하는 고정된 벡터를 담고 있는 일종의 '조회 테이블(Lookup Table)’

Embedding이란
Token ID를 거대한 고차원 공간상의 Vector로 변환하는 기술

Vector

원점으로부터 Token ID의 특징값으로 향하는 화살표

  • Vector 간 거리가 작음 = Feature의 차이가 작음 = Token ID 간 유사성이 높음

Static Embedding

  • 임베딩 모델의 한계
    • 토큰의 특징이 고정되어 있음(사과(Apple), 사과(Apology))
    • Context(문맥) 이해를 못함
    • 고차원 지도에 점만 찍었지 상환 판단을 못 함 → 지능의 한계가 생김

Context 이해를 위한 시도

  • RNN(Recurrent Neural Network, 순환 신경망)
    • 시퀀스 데이터 처리 : 문장을 한 단어씩 순서대로 읽어서 문맥 파악
    • Long-term Dependency(장기 의존성) 문제 : 문장이 길어질수록 앞부분의 정보를 잊어버림
    • 병렬 처리 불가 : 앞 단어의 계산이 끝나야 다음 단어로 넘어갈 수 있어 속도가 매우 느림

Transformer(Attention Is All You Need)

  • 병렬 처리 : 문장 전체를 동시에 처리하여 GPU 활용도를 그대화하고 학습 속도를 비약적으로 높임
  • Self-Attention : 모든 단어가 서로를 참조하여, “내 의미를 파악하는 데 어떤 단어가 가장 중요한가?”에 대한 가중치를 스스로 계산

Transformer Architecture(The Core Modules)

  • Encoder : 전역적 문맥 분석 및 특징 추출
    • Attention Score : 문장 내 토큰 간의 연관성을 수치화한 표현(가중치)
    • Self-Attention을 통해 문맥적 좌표 생성
  • Decoder : 자기회귀적 문장 생성
    • Encoder가 생성한 문맥 정보와 현재까지 생성된 토큰을 결합(Autoregressive, 자기회귀)하여 다음 토큰을 예측

Encoder와 Decoder는 각각의 독립적인 모듈로 이해

Self-Attention이 문맥을 계산하는 방법

  • Query(질문) : 지금 찾고자 하는 정보의 주체는 누구인지
  • Key(검색 대상) : 비교할 대상들이 가진 특징은 무엇인지
  • Value(정보 내용) : 관계가 확인되었을 때 가져올 실제 데이터값

Query와 Key를 대조해서 Attention Score를 구하고, 이를 Value에 곱해 최종 문맥정보를 산출

Multi-Head Attention

  • Multi-Head : 하나의 시선이 아닌 여러 개의 어텐션 헤드가 동시에 작동
  • Parallel Perspective : 주어-동사 관계, 대명사 관계, 수식 관계 등을 각기 다른 헤드가 분석
  • Ensemble 효과 : 다양한 문맥적 정보를 병렬로 처리하여 정보의 누락 방지

Positional Encoding

  • 트랜스포머는 문장을 한꺼번에 읽기 때문에 단어의 위치 정보를 알 수 없음
  • 각 토큰의 좌표에 위치정보가 담긴 특수한 값을 더해줌
  • 문맥을 구분할 수 있는 질서 부여

Masking

  • Padding Mask : 의미 없는 [PAD] 토큰에 시선이 분산되는 것을 방지
  • Causal Mask(인과관계) : 디코더가 미래의 단어를 미리 보고 컨닝하지 못하도록 가림

Transformer와 LLM

  • RNN의 순차적 한계를 극복하고 데이터 전체를 동시에 연산(병렬 처리)
  • 하드웨어(GPU) 가속에 최적화되어 데이터와 파라미터를 무한히 늘릴 수 있음
  • 문장이 아무리 길어져도 전역적 문맥을 놓치지 않는 강력한 기억력(어텐션)
  • 규모의 법칙 확인 : 데이터를 많이 넣었더니 성능이 대폭 증가

Transformer로 LLM 만들기

  • MLM(Masked Language Modeling)
    • 문장 중간의 구멍을 생성하고 앞뒤 문맥으로 맞히기
    • 독해 능력 증가
    • BERT = 인코더 사용
  • CLM(Causal Language Modeling)
    • 이전 단어들을 보고 다음 단어를 순차적으로 예측
    • 작문 능력 증가
    • GPT = 디코더 사용

Fine Tuning

  • 모델의 가중치를 직접 수정하는 과정
  • 이미 학습된 기초 모델(Pre-trained Model)에 특정 데이터를 추가로 학습시켜 모델 뇌 구조 자체를 변화
  • 도메인 특화 성능 극대화
  • 학습을 위한 양질의 데이터셋과 GPU 연산 비용 발생

Prompting

  • In-context Learning(ICL, 문맥 내 학습)
    • 모델이 추가적인 가중치 업데이트 없이, 입력된 프롬프트의 문맥만 보고 즉석에서 태스크를 이해하고 수행
  • Shot Learning : ICL을 구현하는 구체적인 기법 중 하나
    • 프롬프트에 2~5개 정도의 예시(Shot)를 포함시켜 모델에게 가이드를 주는 방식
    • Zero-shot : 예시 0개(지시만 진행)
    • One-shot : 예시 1개 보여줌
    • Few-shot : 예시 2~5개 보여줌

Instruction Tuning(명령어 조정)

  • 지시사항(Instruction)과 답변 쌍을 학습시키는 과정
  • 단순히 다음 단어를 맞히는 것(CLM)을 넘어, 명령의 의도를 파악하게 함
  • SFT(Supervised Fine-Tuning) : 사람이 장성한 [명령어-정답]세트를 대량으로 학습시켜 모델의 행동 양식을 교정

RLHF(Reinforcement Learning from Human Feedback)

  • 인간의 가치간과 선호도를 모델에 반영하는 최종 단계
  • AI가 내놓은 여러 답변 중 사람이 더 좋은 답변을 선택하면 그 방향으로 모델을 강화

MCP

프로토콜

  • 서로 다른 시스템 간 데이터 교환을 위한 공통 규칙
  • 데이터 형식, 해석 방식, 통신 타이밍 등을 정의
  • 규격만 맞으면 제조사 상관없이 소통하는 상호 운용성

생성형 AI 통신의 한계

  • 학습 데이터 기반 답변으로 실시간 정보 접근 불가
  • 부족한 지식을 메우기 위한 할루시네이션 발생
  • AI 모델과 서비스들 간의 통신 규격(프로토콜)이 전부 다름

MCP

  • LLM과 외부 데이터/도구를 잇는 개방형 표준 규약
  • 모델 관계없이 일관된 외부 서비스 통신 방식 제공
  • 최신 정보 접근 및 실제 작업 수행을 돕는 핵심 기술
  • Anthropic 제안 후 OpenAI, 구글이 합류한 표준
  • 호스트, 클라이언트, 서버로 구성된 유연한 연결

Architecture of MCP

  • MCP Server
    • Slack, Gmail 등
  • MCP Hosts
    • Claude, GPT 등
  • MCP Clients
    • host 내부의 파일

MCP의 Transport Layer

  • STDIO
    • 로컬 프로세스 간 통신(IPC)
    • stdin / stdout
    • 망분리를 통한 보안성 증가
    • 네트워크 지연 없음
  • SSE
    • 원격 네트워크 기반 통신
    • HTTP 실시간 스트리밍
    • 외부 서버/클라우드 (Remote)
    • 네트워크 상태에 따라 지연 있음

마치며

이렇게 보니까 짧은 시간 동안 정말 많은 내용을 배운 것 같다. 머신러닝, 딥러닝에 대해서는 이전에 배웠던 내용을 한 번 더 배워보니 확실히 더 이해가 잘 되고 어떤 느낌인지 잘 파악이 된 것 같아서 상당히 만족스러웠다.
PPT도 다 만들었으니 대본만 만들면 발표 준비도 모두 끝이다.

profile
Hello I'm TaeHyunAn, Currently Studying Data Analysis

0개의 댓글