시리즈

NLP

1.Text Preprocessing(텍스트 전처리)

텍스트 전처리는 토큰화(단어·문장·한국어), 품사 태깅, 정제(불용어 제거)·정규화(표제어·어간 추출), 정규표현식 활용으로 구성

2024년 9월 16일

2.언어 모델

언어 모델은 단어 시퀀스에 확률을 할당해 다음 단어를 예측하는 모델이다. 통계적(n-gram) 접근과 신경망 기반 모델, 퍼플렉시티 평가 방법을 다룬다.

2024년 10월 17일

3.카운트 기반의 단어 표현

단어를 국소·분산 표현으로 구분하고, BoW로 문서-단어 행렬(DTM)을 구성한 뒤 희소성·불용어 문제를 지적한다. TF-IDF로 단어 중요도 가중치 부여 방법을 설명

2024년 10월 17일

4.벡터의 유사도(Vector Similarity)

코사인 유사도, 유클리드 거리, 자카드 유사도로 벡터 간 유사도를 계산하는 수식과 예제 코드

2024년 10월 17일

5.순환 신경망(RNN)

RNN은 시퀀스 입력을 순환 구조로 처리하는 시퀀스 모델이다. 피드포워드 NN과 달리 은닉 상태를 재귀 활용하며, One-to-many·Many-to-one·Many-to-many 유형, 수식, Keras/Numpy 구현, 딥 RNN, 양방향 RNN, BPTT, LST

2024년 12월 4일

6.임베딩(Embedding)

원-핫 희소 표현에서 밀집 표현으로 차원 축소한 임베딩 벡터 학습, Word2Vec의 CBOW·Skip-gram·SGNS 및 Negative Sampling 방법 소개

2024년 12월 5일

7.RNN Text Classification

지도학습 기반으로 메일 샘플을 훈련/테스트로 분리하고, 단어를 정수 인코딩해 임베딩한 뒤 SimpleRNN(hidden_units, timesteps, input_dim)으로 다-대-일 분류를 수행한다. 이진·다중 클래스 설정과 BiLSTM 활용법도 다룬다.

2025년 7월 5일

8.Subword Tokenizer

서브워드 분리 개념과 BPE·WordPiece·Unigram 알고리즘 작동 원리, 구글 SentencePiece·TF SubwordTextEncoder·Huggingface tokenizers 구현체를 소개

2025년 7월 4일

9.RNN Encoder-Decoder

seq2seq 인코더-디코더 구조: 인코더는 문장 정보를 컨텍스트 벡터로 압축하고, 디코더는 이를 초기 은닉 상태로 사용해 RNNLM 기반 번역을 순차 생성. BLEU는 n-gram 정밀도와 brevity penalty로 성능 평가

2025년 7월 4일

10.트랜스포머 (1/2)

Transformer는 “Attention is all you need” 논문에서 제안된 RNN 없는 seq2seq 모델로, 포지셔널 인코딩으로 위치 정보를 보존하고 멀티헤드 셀프 어텐션을 통해 병렬화된 어텐션으로 뛰어난 번역 성능을 구현한다.

2025년 7월 3일

11.트랜스포머 (2/2)

Transformer 2/2: 멀티 헤드 어텐션 병렬로 다양한 관계 학습, 패딩 마스크 적용, 포지션-와이즈 FFNN, 잔차+층 정규화(Add & Norm), 디코더 3단 서브층 구조 설명.

2025년 7월 4일

12.GPT(Generative Pre-trained Transformer)

GPT는 사전 학습된 Transformer 기반 LLM으로, Zero-/Few-shot 학습으로 자연어 생성·이해를 수행하며, GPT-1부터 GPT-4까지 발전했고, KoGPT-2로 한국어 문장 생성·챗봇 예제를 실습한다.

2025년 6월 20일