자연어 처리(NLP) 모델은 계속해서 대규모화되고 있으며, 이를 훈련하거나 활용할 때 필요한 리소스가 엄청나게 증가하고 있습니다. 특히 대형 모델을 활용할 때는 메모리 부족 문제와 계산 비용이 큰 부담이 될 수 있습니다. 이러한 문제를 해결하는 데 있어 LoRA (Lo
딥시크 논문 및 깃허브 연구의 목적 기존 연구는 지도학습(SFT)에 의존해 대규모 언어 모델(LLMs)의 성능을 개선하였으나, 지도 학습 데이터는 수집과 라벨링에 많이 시간과 비용을 소요되어 이것을 개선하기 위해 연구 목표 지도학습 없이 강화학습(RL)만으로 LLM
Mixed Precision Training해당 논문을 요약하자면 32-bit가 아닌 16-bit로 표현하여 배치 사이즈를 늘리고, 그에 따라 학습 속도를 빠르게 할 수 있는 Mixed Precision Training이라는 기술을 다룹니다.해당 과정에서 발생할 수 있
해당 내용은 High-Resolution Image Synthesis with Latent Diffusion Models논문을 다루었습니다. 결과표 및 요약 내용입니다. Unconditional LDM의 hyper-parameter 관련 표입니다. 해당 표는 $25
해당 내용은 High-Resolution Image Synthesis with Latent Diffusion Models 관련 리뷰입니다.학습 및 inference 모두에서 픽셀 기반 diffusion model과 비교 및 장점 분석입니다.VQ-regularized l
Conditioning MechanismsPermalink 다른 유형의 생성 모델과 마찬가지로 diffusion model은 원칙적으로 $P(z|y)$ 형식의 조건부 분포를 모델링 할 수 있습니다. 조건부 denoision autoencoder $\epsilon\the
저번 시간 Perceptual Image Compression에 이어 Latent Diffusion Models에 사용되는 Method를 알아보도록 하겠습니다. Latent Diffusion Models Diffusion model은 정규 분포 변수의 noise를 점
고해상도 이미지 합성에 대한 Diffusion Model(확산 모델) 학습의 계산량을 낮추기 위해 Diffusion Model이 해당 손실 항을 적게 샘플링하여 Perceptual(지각적인) 세부사항들을 줄일 수 있지만, 그렇더라도 픽셀 공간에 대한 계산 비용이 많이
Diffusion model은 이미지 합성과 해상도 품질을 올리는 분야에서 좋은 성능을 보였지만, 데이터의 감지할 수 없는 세부 정보를 모델링 하는데 과도한 자원을 소비하는 경향이 있습니다.DDPM의 재가중된 목적 함수는 초기 노이즈 제거 단계에서 적게 샘플링하여 자원
최근 추천 받은 DDPM(Denoising Diffusion Probabilistic Model)과 LDM(High-Resolution Image Synthesis with Latent Diffusion Models)을 학습을 시작하려고 합니다.우선 학습을 시작할 논문
데이터가 방향성을 가지고 움직일 때, 이동하면서 구해지는 평균을 뜻합니다.동적으로 변화하는 것에는 어디든 이동평균을 적용할 수 있으며, 또한 1차원적인 방향성을 가지고 이동하기에 이동편균을 적용 가능합니다가정 m일의 평균(m = Window)n번째 데이터의 단순 이동평
PCA는 주성분 분석이라고 하며 고차원의 데이터 집합을 낮은 차원의 데이터로 차원축소 하는 방법입니다.데이터의 변수를 줄이는 것은 정확도를 좀 희생하는 것이지만 데이터를 쉽게 시각화 해보고 빠르게 분석할 수 있기 때문에 하는 과정 입니다.PCA의 아이디어는 가능한 많은
(Boolean search : 정보 검색 시 AND, OR, NOT과 같은 연산자를 사용하여 검색하는 방식이다.)단어를 통해 검색할 때 Boolean을 이용해서 검색한다면 해당 문서나 글에 단어가 존재하는지 여부만 알려주고 몇 번 나왔는지 순서는 어떠한지 등 상세한
데이터에서 일반적인 패턴, 분포에서 벗어나 극단적으로 크거나 작은 값을 의미한다.이상치는 데이터를 수집할 때에 실수나 오류로 인한 이상한 값일 수도 있는데, 이러한 이상치는 실제 데이터의 특징을 제대로 반영하지 않을 수 있다. (예: 센서 오류, 측정 장비 결함, 데이
0-1. 시계열 시계열 구성 요소 추세(Trend) 데이터가 장기간 증가하거나 감소하는 영향 계절성(Seasonality) 일정한 주기로 반복되는 주기적인 패턴 e.g. 한 해 동안의 계절적인 변동이나 월간 패
다양한 task를 각기 다른 training 데이터를 이용해 동시에 학습하는 모델다른 task를 하나의 training 데이터 셋을 이용하는 경우는 Multi-label Learning, Multi-output Regression 에 해당한다.다양한 task 동시에 학
회귀분석 R-Squared(결정계수) 회귀모델에서 독립변수(일반적으로: X) 종속변수(y) 얼마나 설명하는지 알려주는 지표 종속변수가 추가 되는 것만으로도 점수가 올라가기 때문에 유의 $R^2 = \frac{SSE}{SST} = 1-\frac{S
Transformer정리중관련논문 - all you need is attention구현코드 - 해당코드는 시계열 데이터(sunspot)을 이용하여 연습하였습니다.Dot-Product(내적)MultiHeadEstimator$y = \\sum\_{i=1}^m \\alpha
상관계수 (R : Correlation Coefficient) → 두 변량 X,Y 사이의 상관관계의 정도를 나타내는 수치, -1,과 1사이의 값을 가지면 절대값이 1에 가까울 수록 두 변량 사이의 상관관계의 정도가 높음 Untitled 상관도 : 두 변량 사이의
Generative Adversarial Network적대적 생성 신경망대충 생성형 AI 를 생각하면 될 것 같다.생성자 (Generator) 와 판별자 (Discriminator) 두가지로 구성되어있다.여기서 적대적 생성 신경망 의 “적대적” 이라는 형용사를 (부사?