
텍스트 전처리는 토큰화(단어·문장·한국어), 품사 태깅, 정제(불용어 제거)·정규화(표제어·어간 추출), 정규표현식 활용으로 구성

언어 모델은 단어 시퀀스에 확률을 할당해 다음 단어를 예측하는 모델이다. 통계적(n-gram) 접근과 신경망 기반 모델, 퍼플렉시티 평가 방법을 다룬다.

단어를 국소·분산 표현으로 구분하고, BoW로 문서-단어 행렬(DTM)을 구성한 뒤 희소성·불용어 문제를 지적한다. TF-IDF로 단어 중요도 가중치 부여 방법을 설명

코사인 유사도, 유클리드 거리, 자카드 유사도로 벡터 간 유사도를 계산하는 수식과 예제 코드

RNN은 시퀀스 입력을 순환 구조로 처리하는 시퀀스 모델이다. 피드포워드 NN과 달리 은닉 상태를 재귀 활용하며, One-to-many·Many-to-one·Many-to-many 유형, 수식, Keras/Numpy 구현, 딥 RNN, 양방향 RNN, BPTT, LST

원-핫 희소 표현에서 밀집 표현으로 차원 축소한 임베딩 벡터 학습, Word2Vec의 CBOW·Skip-gram·SGNS 및 Negative Sampling 방법 소개

지도학습 기반으로 메일 샘플을 훈련/테스트로 분리하고, 단어를 정수 인코딩해 임베딩한 뒤 SimpleRNN(hidden_units, timesteps, input_dim)으로 다-대-일 분류를 수행한다. 이진·다중 클래스 설정과 BiLSTM 활용법도 다룬다.

서브워드 분리 개념과 BPE·WordPiece·Unigram 알고리즘 작동 원리, 구글 SentencePiece·TF SubwordTextEncoder·Huggingface tokenizers 구현체를 소개

seq2seq 인코더-디코더 구조: 인코더는 문장 정보를 컨텍스트 벡터로 압축하고, 디코더는 이를 초기 은닉 상태로 사용해 RNNLM 기반 번역을 순차 생성. BLEU는 n-gram 정밀도와 brevity penalty로 성능 평가

Transformer는 “Attention is all you need” 논문에서 제안된 RNN 없는 seq2seq 모델로, 포지셔널 인코딩으로 위치 정보를 보존하고 멀티헤드 셀프 어텐션을 통해 병렬화된 어텐션으로 뛰어난 번역 성능을 구현한다.

Transformer 2/2: 멀티 헤드 어텐션 병렬로 다양한 관계 학습, 패딩 마스크 적용, 포지션-와이즈 FFNN, 잔차+층 정규화(Add & Norm), 디코더 3단 서브층 구조 설명.

GPT는 사전 학습된 Transformer 기반 LLM으로, Zero-/Few-shot 학습으로 자연어 생성·이해를 수행하며, GPT-1부터 GPT-4까지 발전했고, KoGPT-2로 한국어 문장 생성·챗봇 예제를 실습한다.