기계독해 프로젝트 강의 학습정리
MRC의 개념과 MRC 데이터셋 및 Task들에 대해 정리하였습니다.

유니코드, Tokenization(BPE), KorQuAD 상세사항

Extractation-based 기계독해 학습 개요
Extraction이 아닌 Generation-based MRC에 대하여...
Retrieval,,, MRC 이전에 문서를 파싱해보자 !

Dense Embedding을 활용한 문서 검색,,, Retrieval?? 리트리버 ! ㅎㅎ ;;
FAISS를 활용한 문서검색
Open-Domain Question Answering 관련 이슈 및 성능 향상 방안
ODQA에서의 Bias 다루기
Closed-book QA
더 효율적인 문서검색 및 MRC

Data-Centric 강의 개요

DMOps

DMOps
NLP 데이터에 관하여...
NLP 분야 특이 Task 와 Data
NLP History를 Data-centric한 관점에서 본다.

주어진 말뭉치를 토큰으로 나뉘는 것을 말한다어떻게 하느냐에 따라 의미가 달라질 때가 많다.서브워드 토큰화주어진 말뭉치를 서브워드로 단위로 나눈다.인지적으로 알고 있는 워드 단위로 토큰화를 하게 되면 vocab이 너무나 커지기 때문에이러한 문제를 해결하기 위해 제시된 것
데이터 증강 !
1. 데이터 증강에 관한 최근 연구 Iterative Back-Translation for Neural Machine Translation Back Translation이나 EDA(Easy Data Augmentation)과 같은 기법들은 RNN, LSTN 같은 모델들
멀티모달 AI와 Neuro-Symbolic AI 1. 멀티모달 AI 정의: 텍스트, 이미지, 오디오 등 서로 다른 데이터 타입을 동시에 처리할 수 있는 AI 시스템 필요성: 현실 세계의 복잡한 문제 해결을 위해 단일 모달 데이터로는 불충분 다양한 감각 정보를 통합하여 더 풍부한 이해와 추론 가능 주요 연구 분야: Mathematical/Arithme...
Future Data-centric AI

인코더와 디코더 각각에 대한 탐구

LLaMA 파헤치기
1. NLP 패러다임의 변화 N-gram language models → Neural language models: BERT, GPT Traditional models: Naive Bayes → Neural models: Transformers Static embeddings: word2vec → Contextual embeddings: BERT, GPT...
고품질 Pre-Training Dataset과 전처리 도구들을 활용해 효율적인 언어모델 학습이 가능하며, Fine Web은 15T 규모의 정제된 데이터로 최적화된 학습을 지원한다.
Self-Instruction, 소량의 Seed Dataset으로 LLM을 활용해 대규모 Instruction 데이터를 생성하고 필터링하여 Fine-tuning 데이터셋을 구축하는 효율적인 방법

LLM 평가는 자동화된 메트릭, LLM 기반 판단, 사람 평가를 통해 다양한 능력과 편향성을 종합적으로 검증한다.

LLM의 Long Context 처리를 위해 위치 정보 임베딩이 중요하며, RoPE와 ALiBi 같은 기술이 발전했고, Ring Attention을 통해 메모리 효율적으로 긴 컨텍스트를 처리할 수 있게 됨.
EMbedding
AI Agent에 대하여

1. Text Generation LLM은 다음 토큰을 예측하도록 학습되었다. 다음 토큰으로 가장 적합한 것을 선택하는 Decoding 방식은 다를 수 있다. Greedy Decoding (무조건 가장 확률이 높은 것) 반복어휘 가능성이 높음 Top-K Sampling > Autoregressive Generation의 특성상 원하는 답이 ...
Generative AI 1강

Generative AI(2)

PEFT 방법론

라이센스, 학습데이터 구축, 평가
image AI에 대하여
Stable Diffusion

서빙의 유형

Airflow

Airflow 실습 강의

Online Serving

FastAPI 기초

Docker를 알아보자
클라우드 서비스 배우기

Github Actions의 활용

MLflow의 활용
지속적으로 성장하는 사람이 된다는 것

모델 최적화, 경량화 개요

Pruning에 대해 알아보자!

Pruning 심화 및 실습

Knowledge Distillation(logit-based)

Featrue-based KD

Absmax, Zero-point Quantization

LoRA, Adapter, Transfer Learning

Adpater Fusion, Q-LoRA

DP, DDP

Model Parallelism, Tensor Parallelism, Pipeline Parallelism

CoT, Self-Consistency, Least-to-Most, Decomposed, ReAct
LLM Agent, Visual ChatGPT, JARVIS, LLM-Planner, LLM의 한계
Hallucination, Toxicity, Bias, Privacy Invasion
Continual-Learning, RAG
시장현황, Provider, Applications