은닉층(Hidden layer)이 1개 있는 경우의 간단한 신경망으로 경사 하강법 예시를 보여드리겠습니다.
신경망의 출력 𝐿 (손실 Loss)은 여러 층을 거쳐 계산됩니다.따라서 특정 가중치 𝑤가 Loss에 어떻게 영향을 주는지 계산하려면 체인 룰(Chain Rule)을 사용해야 합니다.
Loss (손실)모델의 예측값과 실제값의 차이를 수치화한 값의 예시 (Pytorch 코드 첨부)
Self-Attention의 개념 및 간단한 예제에 대한 내용입니다.
Layer Normalization은 딥러닝 모델, 특히 Transformer에서 아주 중요한 역할을 합니다.
각 레이어의 연산 특성을 비교합니다.
2D CNN의 연산 복잡도에 대한 설명과 예시 입니다.
모델 성능을 올리기 위한 네트워크 Weight 튜닝 기법들의 설명입니다.
2D CNN의 연산 복잡도 및 Self-attention layer의 비교 글입니다.
NAS는 딥러닝 모델의 구조(architecture)를 자동으로 설계하는 방법입니다.
Batch Normalization(BN)이 해결하려는 "covariate shift", 특히 internal covariate shift에 대한 설명입니다.
"왜 데이터가 적어도 30개 이상 있어야 할까?"에 대해 정규분포와 중심극한정리(Central Limit Theorem, CLT)는 실제로 연관이 있습니다.
Batch Normalization(BN)과 Layer Normalization(LN)의 차이에 대한 설명입니다.
Linear layer(선형 레이어)는 인공지능 모델에서 입력을 받아 "한 번 곱하고 더하는" 역할을 합니다.
Convolution Layer(합성곱 층)에 대한 설명 글 입니다.
Grid Pooling은 쉽게 말하면,포인트 클라우드를 격자(grid)로 나눠서, 같은 칸에 들어간 포인트들을 요약하는(pooling하는) 방법입니다.
Grid Pooling과 Furthest Point Sampling(FPS) 을 비교한 글 입니다.
Transformer 모델에서 Positional Encoding (PE)은 입력 데이터의 순서를 모델이 인식할 수 있도록 하는 기법입니다.
Receptive field (수용 영역)는 CNN의 특정 뉴런(또는 피처)의 출력이 입력 이미지의 어느 영역을 참조하고 있는지를 의미합니다.
지식 증류(knowledge distillation)는 큰 모델(teacher)의 지식을 작은 모델(student)로 전달하여, 작은 모델도 높은 성능을 내도록 만드는 모델 압축 기법입니다.
본 글은 1D CNN에서 수식을 기반으로 한 backpropagation 과정을 간단한 예제를 포함합니다.
NMS(Non-Maximum Suppression)에 대한 설명입니다.
3D Segmentation: Mesh Vertex에 Voxel Label을 Trilinear Interpolation으로 할당하기
Validation Loss 평균 계산법에 따라 성능 비교가 달라질까요?
너무 크거나 너무 작으면? Batch Size가 딥러닝에 미치는 영향 정리
오버피팅 방지를 위한 실전 테크닉 8선: Regularization부터 Early Stopping까지
단순 앙상블을 넘어서: XGBoost 기반 Stacking으로 성능 극대화하기
SGD에서 Adam까지, 손실 최소화를 위한 알고리즘 진화 과정 정리
손실 함수 완전 정복: Cross Entropy vs MSE
딥러닝 학습 안정성의 비밀, 파라미터 초기화와 He 초기화 이해하기
딥러닝 성능을 좌우하는 시작점, 파라미터 초기화 A to Z
Ablation Study는 딥러닝 모델의 구성 요소 중 일부를 제거하거나 변경하여, 그 요소가 모델 성능에 얼마나 기여하는지를 분석하는 실험 방법입니다.
코사인 유사도(Cosine Similarity) 완벽 정리: 개념부터 코드 예시 포함
Transformer 구조를 이해하다 보면 꼭 마주하게 되는 질문이 있습니다. 바로 "Attention Layer는 얼마나 연산량이 많을까?", "MLP는 상대적으로 가볍나?" 하는 궁금증입니다.
깊게 쌓았는데 왜 성능이 나빠질까? 딥러닝 Degradation 문제 알아보기
시맨틱 vs 인스턴스 세분화, 이미지에서 객체를 구분하는 두 가지 방식
Max Pooling이 채널 수는 왜 안 바꿀까? 채널을 바꾸는 연산은 따로 있습니다.
학습하지 않은 것도 맞추는 AI의 비결, 귀납적 편향이란?
딥러닝 학습 효율 올리기: SGD와 Adam의 원리와 장단점
CNN + Attention or ViT로 이미지 분류할 때 Output은 어떻게 설정할까?
PyTorch로 Self-Attention부터 Cross-Attention까지 실전 구현
모델 간 연동을 위한 딥러닝 Feature 추출법
정량적으로 평가하는 치아 AI 분할 성능, TLA, TSA, TIR이란?
딥러닝 모델의 VRAM 사용량을 줄이는 10가지 방법
VRAM 2배 증가? 파라미터가 아닌 feature map 때문입니다
딥러닝 모델 구조 완전 정복: Cascade, Pyramid, Hourglass, Autoencoder의 차이점은?
Variational Autoencoder(VAE) 완벽 정리!
KL Divergence란?
PyTorch C++에서 추론 성능을 끌어올리는 4가지 핵심 설정
AI 핵심 개념: Foundation Model과 그 파생 모델 총정리
KL Divergence 개념부터 VAE 예제까지 한 번에 이해하기
과적합 방지부터 모델 안정화까지! Regularization & Generalization 한눈에 보기
Regularization 기법 완전 정복 & Dropout의 앙상블 효과 이해하기
Machine Learning 필수 개념: 지도 학습, 반지도 학습, 비지도 학습 완벽 이해
라벨 부족 시대의 해결책: 반지도 학습 핵심 기법들
언어 모델이 다음 단어를 예측하는 수학적 원리
언어모델, 손실 함수 두 개 써도 될까?
GPT에서 Supervised Loss는 사라졌을까?
Delimiter Token 완전 정리 — Transformer 모델 핵심 토큰
Segment Embedding 완벽 이해: 문장 관계를 아는 Transformer의 비밀
Fine-tuning의 대표적인 5가지 방법을 소개합니다.
GPT-1 모델을 직접 학습해보려면? 필요한 GPU 사양과 학습 시간 총정리!
GPT-3 이상의 초거대 언어모델, 왜 GPU가 수천 개나 필요할까?
딥러닝에서 GPU 메모리(VRAM)는 무엇을 저장할까?
Learning Rate 완전 정복!
개념, 장단점, 쓰임새까지 한 번에 이해하기
GPT-4 시대, 수만 개 GPU가 경쟁력이다
딥러닝용 GPU의 VRAM, 아키텍처, 용도, 가격까지 한눈에 총정리!
AMP는 32비트(float32)와 16비트(float16) 연산을 자동으로 섞어서 수행하는 기술입니다.
딥러닝 파라미터 수, 어떻게 계산할까?
딥러닝을 속이는 간단한 수식: FGSM과 sign()의 비밀
사람은 못 보고, AI는 속는다: 적대적 공격 완전 정복
신경망의 표현력, 왜 '비선형'이 핵심인가?
프롬프트에 예제를 몇 개 보여주느냐에 따라 달라지는 모델의 추론 방식과 입력 토큰의 길이
하나의 모델로 번역부터 감정 분석까지, 프롬프트만 바꾸면 가능한 이유와 그 한계
GPT는 어떻게 문장을 이해하고 생성할까? 언어의 순차성과 조건부 확률을 연결해보면, 언어 모델의 핵심 원리가 보입니다.
자연어로 모든 태스크를 통일하는 GPT의 사고방식
GPT는 어떻게 지시 없이도 작업을 처리할 수 있을까?
GPT가 지시를 이해하고 더 나은 답변을 생성하는 비결, ‘사람의 피드백’에서 찾다
GPT는 단순한 문장 생성기를 넘어서, 이제 "생각할 수 있는" 언어모델이 되었습니다
UTF-8은 왜 바이트는 256개뿐인데 유니코드를 다 표현할 수 있을까?
BPE 토크나이저, 문자 기반 vs 바이트 기반 완벽 정리
바이트 기반 토크나이저의 한계와 Google Gemini와의 차이
Transformer에서 안정적인 학습을 위한 핵심 전략: 잔차 연결과 가중치 스케일링
CNN과 Transformer가 모두 선택한 기술, 왜 그럴까?
NLP에서 ‘어떻게 읽고, 어떻게 답할 것인가’를 결정하는 세 가지 구조
모델 경량화 시대, 우리가 알아야 할 양자화 개념 총정리
PyTorch 양자화가 모델 크기를 줄이는 진짜 이유
Static vs Dynamic Quantization, int8 연산의 실제 흐름과 저장 방식까지!
"양자화는 좋다는데... 어디서 진짜 효과를 보나요?" 이 글에서는 양자화 모델의 실제 적용 환경, 그리고 QNNPACK/XNNPACK과 같은 엔진의 역할까지 정리해드립니다.
CPU 차이? 백엔드 설정? Fallback 제거? 한 번에 정리해드립니다
딥러닝에서 양자화(Quantization)는 float32 모델을 **메모리 효율적이고 연산이 빠른 정수(int8) 기반 모델**로 바꾸는 기술입니다. 이
LLM + RAG = 정확하고 신뢰할 수 있는 AI 대화의 미래
Gemini Flash vs GPT-4o Mini vs Claude 3.5 Sonnet: 최적의 선택은?
AI 코딩 도구 완벽 가이드: Cursor vs Copilot 비교 분석
ChatGPT vs Gemini vs Claude - 상황별 최적 모델 선택 전략
머신러닝의 핵심인 잠재 벡터(Latent Vector)와 임베딩 벡터(Embedding Vector), 그 의미와 차이점을 명확하게 알아봅니다.
PyTorch의 동적 그래프 유연성은 유지하면서도, 성능과 배포 효율성을 챙기는 방법? 정답은 바로 JIT(Just-In-Time) 컴파일과 TorchScript입니다.
PPO의 진화, 그리고 LLM의 자가 학습 시대
Self-Attention, Encoder-Decoder, Cross-Attention의 관계부터
Position-wise MLP로 이해하는 Transformer의 핵심 구성
모델 파라미터와 데이터 크기의 균형이 왜 중요한지, 스케일 법칙이 성립하는 조건과 실제 예시를 통해 명확히 이해해봅니다.
딥러닝/머신러닝 모델은 그 연산 구조와 파라미터 표현 방식에 따라 크게 Dense Model(조밀 모델)과 Sparse Model(희소 모델)로 나눌 수 있습니다.
모멘텀부터 RMSProp까지, 왜 Adam이 딥러닝의 대표 최적화 알고리즘인지 제대로 이해해보자
딥러닝 성능과 효율성을 극대화하는 정밀도 전략
파라미터 수, 활성화 값, KV 캐시가 만드는 VRAM 사용량
GPU 연산, KV 캐시, 병렬 처리 효율로 풀어보는 LLM 요금의 비밀
멀티태스킹 환경에서 num_workers, 배치 사이즈, 그리고 리소스 제어 전략
Teacher 모델에서 Student 모델로 지식을 전달하는 방법
예시로 보는 `state_dict` 활용 전략
딥러닝 모델 배포 비용 걱정 끝! Inferentia 도입 가이드
Task-agnostic의 정의와 기본 개념
Process Reward Model(PRM): 과정에 보상을 주는 새로운 학습 패러다임
확률과 탐색의 만남, 알파고를 만든 핵심 알고리즘
Diffusion의 핵심 개념과 3단계 파이프라인 설명
효과적인 프롬프트 구조 설계
사용자 친화형 학습 vs 추론 특화형 학습
1천만 토큰 문맥 길이 지원
GPU와 NPU 발전이 가져온 AI 활용의 새로운 패러다임
GPT-5 속도 저하의 기술적 원인과 해결 방법
학습과 평가에서 왜 Soft Probability와 Hard Prediction을 구분해서 써야 할까?
채널 단위까지 조절하는 벡터 어텐션의 힘
딥러닝에서 말하는 homogeneous 의 진짜 의미는?