DeepSeek-V3에서 사용한 Multi-Head Latent Attention (MLA) 에서 Latent는 "잠재적인(hidden or latent) 변수"를 의미합니다. 여기서 잠재 변수(Latent Variable) 는 모델이 직접 관측할 수 없는 내재적인 정
이전 포스팅 글에서 DeepSeek에 대해 작성하며, MoE와 다중 토큰 예측을 다루어 좀 더 자세히 작성하기 위한 글입니다.MoE(Mixture of Experts)는 여러 개의 전문가(Experts) 모델을 두고, 입력에 따라 적절한 전문가를 선택해 학습과 예측을
DeepSeek-V3는 총 671억 개의 매개변수를 가진 Mix-of-Experts(MoE) 기반의 대규모 Transformer 언어 모델입니다.이 모델은 DeepSeek-R1의 지식을 전수받아 질문 응답, 코드 생성, 수학 문제 해결 등 다양한 작업에 최적화될 수 있
단일 GPU(A4000, 16GB)하나의 GPU가 전체 16GB VRAM을 사용 가능큰 모델이나 대용량 데이터 처리가 가능RTX 3060 \* 2 (멀티 GPU, 각각 12GB)VRAM이 합쳐지지 않음 → 각 GPU는 독립적으로 12GB씩 사용모델이나 데이터가 단일 G
DeepSeek는 V3가 발표될 당시만 해도 회의적인 시각이 많았고, 아직 갈 길이 멀다는 평가가 있었습니다. 그러나 올해 1월 R1이 발표되면서 AI 업계뿐만 아니라 다양한 산업군에서 DeepSeek에 대한 관심이 급격히 높아졌습니다. DeepSeek의 기술 발전
자연어 처리(NLP) 모델은 계속해서 대규모화되고 있으며, 이를 훈련하거나 활용할 때 필요한 리소스가 엄청나게 증가하고 있습니다. 특히 대형 모델을 활용할 때는 메모리 부족 문제와 계산 비용이 큰 부담이 될 수 있습니다. 이러한 문제를 해결하는 데 있어 LoRA (Lo
딥시크 논문 및 깃허브 연구의 목적 기존 연구는 지도학습(SFT)에 의존해 대규모 언어 모델(LLMs)의 성능을 개선하였으나, 지도 학습 데이터는 수집과 라벨링에 많이 시간과 비용을 소요되어 이것을 개선하기 위해 연구 목표 지도학습 없이 강화학습(RL)만으로 LLM
Mixed Precision Training해당 논문을 요약하자면 32-bit가 아닌 16-bit로 표현하여 배치 사이즈를 늘리고, 그에 따라 학습 속도를 빠르게 할 수 있는 Mixed Precision Training이라는 기술을 다룹니다.해당 과정에서 발생할 수 있
해당 내용은 High-Resolution Image Synthesis with Latent Diffusion Models논문을 다루었습니다. 결과표 및 요약 내용입니다. Unconditional LDM의 hyper-parameter 관련 표입니다. 해당 표는 $25
해당 내용은 High-Resolution Image Synthesis with Latent Diffusion Models 관련 리뷰입니다.학습 및 inference 모두에서 픽셀 기반 diffusion model과 비교 및 장점 분석입니다.VQ-regularized l
Conditioning MechanismsPermalink 다른 유형의 생성 모델과 마찬가지로 diffusion model은 원칙적으로 $P(z|y)$ 형식의 조건부 분포를 모델링 할 수 있습니다. 조건부 denoision autoencoder $\epsilon\the
저번 시간 Perceptual Image Compression에 이어 Latent Diffusion Models에 사용되는 Method를 알아보도록 하겠습니다. Latent Diffusion Models Diffusion model은 정규 분포 변수의 noise를 점
고해상도 이미지 합성에 대한 Diffusion Model(확산 모델) 학습의 계산량을 낮추기 위해 Diffusion Model이 해당 손실 항을 적게 샘플링하여 Perceptual(지각적인) 세부사항들을 줄일 수 있지만, 그렇더라도 픽셀 공간에 대한 계산 비용이 많이
Diffusion model은 이미지 합성과 해상도 품질을 올리는 분야에서 좋은 성능을 보였지만, 데이터의 감지할 수 없는 세부 정보를 모델링 하는데 과도한 자원을 소비하는 경향이 있습니다.DDPM의 재가중된 목적 함수는 초기 노이즈 제거 단계에서 적게 샘플링하여 자원
최근 추천 받은 DDPM(Denoising Diffusion Probabilistic Model)과 LDM(High-Resolution Image Synthesis with Latent Diffusion Models)을 학습을 시작하려고 합니다.우선 학습을 시작할 논문
데이터가 방향성을 가지고 움직일 때, 이동하면서 구해지는 평균을 뜻합니다.동적으로 변화하는 것에는 어디든 이동평균을 적용할 수 있으며, 또한 1차원적인 방향성을 가지고 이동하기에 이동편균을 적용 가능합니다가정 m일의 평균(m = Window)n번째 데이터의 단순 이동평
PCA는 주성분 분석이라고 하며 고차원의 데이터 집합을 낮은 차원의 데이터로 차원축소 하는 방법입니다.데이터의 변수를 줄이는 것은 정확도를 좀 희생하는 것이지만 데이터를 쉽게 시각화 해보고 빠르게 분석할 수 있기 때문에 하는 과정 입니다.PCA의 아이디어는 가능한 많은
(Boolean search : 정보 검색 시 AND, OR, NOT과 같은 연산자를 사용하여 검색하는 방식이다.)단어를 통해 검색할 때 Boolean을 이용해서 검색한다면 해당 문서나 글에 단어가 존재하는지 여부만 알려주고 몇 번 나왔는지 순서는 어떠한지 등 상세한
데이터에서 일반적인 패턴, 분포에서 벗어나 극단적으로 크거나 작은 값을 의미한다.이상치는 데이터를 수집할 때에 실수나 오류로 인한 이상한 값일 수도 있는데, 이러한 이상치는 실제 데이터의 특징을 제대로 반영하지 않을 수 있다. (예: 센서 오류, 측정 장비 결함, 데이
0-1. 시계열 시계열 구성 요소 추세(Trend) 데이터가 장기간 증가하거나 감소하는 영향 계절성(Seasonality) 일정한 주기로 반복되는 주기적인 패턴 e.g. 한 해 동안의 계절적인 변동이나 월간 패