데이터의 변수가 많아지면 데이터의 차원은 증가하고 이는 연산량 증가데이터의 밀집도 감소고차원 공간을 설명할 모델을 학습할 데이터 부족위의 문제점을 야기하며, 차원의 저주를 발생시킴위의 차원의 저주 문제를 해결하기위해 피쳐의 개수를 줄이는 방법은 두가지로 분류할 수 있음
MobileNet에서 사용된 Depth wise seprable convolution에 대해서 설명한다.참고k = kernelc = in_channelm = out_channel이라고 할 때,일반적인 convolution은(k x k x c) x m 개의 paramet
참고NDCG는 랭킹기반 지표이다. 추천된 아이템의 순위까지 고려한 지표이다.NDCG를 설명하기 위해서는 CG, DCG, IDCG를 우선 알아야한다.relevance의 합이다. relevance라는 것은 상황에 따라 다르게 적용되며, 사용자와 아이템간의 연관성을 말한다.
0~1 사이의 값을 가지는 함수각 클래스의 확률을 계산0~1 사이의 값을 가지며, 모든 클래스의 값을 더하면 1이다.sigmoid는 binary classification확률의 총합은 1이 아님큰 출력값이 해당 클래스를 가질 가능성이 높다는 것이지만 실제 확률은 아님s
gradient descent를 진행할 때 어떻게 할지가 옵티마이저모멘텀 : 현재까지 오던 관성스텝사이즈 : learning rate두개의 방향성으로 발전했으며, 가장 많이 쓰이는 아담은 모멘텀과 lr 둘다 조절한다.
이 게시물을 참고하였습니다.데이터 클래스 2개, x라는 데이터 주어짐$$P(c_i | x)\\text{ for }i=1, 2$$$$P(c_1 | x) >? P(c_2 | x)$$두 개중 어떤 확률이 높은지 비교하면 될 것이다. $$\\frac{P(x | c_1)P(c_
L1/L2 Norm, Loss, Regularization 세가지가 헛갈릴 수 있다.Norm은 벡터의 크기, 두 벡터 사이의 거리Loss는 오차Regularization은 가중치가 너무 커지는 것을 규제, 즉 오버피팅 방지하는 것L1은 절댓값L2는 제곱 으로 기억하면
n_gram(n개의 단어단위로 끊는 것)의 정밀도의 합, 예측 문장의 길이에 따른 페널티를 고려한 값$$\\text{Unigram precision} = \\frac{정답에 존재하는 예측의 단어수}{예측의 총 단어수}$$예측에서 다 같은 단어를 예측하고, 해당 단어가
각 단어를 query, key, value로 만든다. 이는 각각 행렬을 곱해서 만드는 것.여기서 query는 지금 주인공인 벡터이다. 다른 단어와의 관계성을 파악하려고하는 벡터이다.key는 query와 dot product해서 관계성을 파악하려고 하는 대상이 되는 벡터
Natural Language Process자연어를 컴퓨터에 입력하기 위한 전처리, 자연어를 이해하는 과정, 자연어를 생성하는 과정을 모두 통틀어 이르는 말Natural Language Understanding자연어의 의미를 모델이 이해하도록 하는 것GLUE 벤치마크를
딥러닝 모델의 손실함수는 매우 복잡하고, 이러한 식의 최솟값을 바로 구하는 것은 힘들다.각 가중치로 편미분한 값이 가리키는 손실이 줄어드는 방향으로 단계별로 가중치를 변경하면서 손실함수의 값을 줄여가며 학습한다.$x\_{i+1}=x_i-\\alpha \\frac{d f
선형의 affine함수를 여러겹 쌓는다고 비선형의 데이터 분포를 근사할 수는 없다. 이때 중간마다 비선형의 활성화함수를 추가하여 비선형성을 추가해줄 수 있다.affine 결과를 일정한 범위의 값으로 정제할 수 있다.Q. 비선형의 affine layer를 사용한다면?선형
receptive field를 넓히는 데에는 pooling 이 많이 사용됌. \-> 그러나 이는 정보의 손실이 크다. 큰 크기의 커널\-> 연산량이 늘어난다.dilated conv를 사용하면 정보의 손실을 줄이되 연산량이 기존의 conv와 똑같다.googlenet에서
MLP (Multi-Layer Perceptron)은 이미지 처리에 적합하지 않은 구조입니다. 이는 다음과 같은 이유로 설명됩니다.입력 크기 제한: MLP는 입력 크기가 고정되어 있어, 대부분의 이미지는 입력으로 사용할 수 없습니다. 예를 들어, 224 x 224 픽셀
기존 한계점Multi-Modal Interactive Models이란 유저와 recommender system이 상호작용하며 유저가 원하는 상품을 찾는 것이다. 위의 사진과 같이 유저는 찾고 싶은 target item이 있고,추천모델은 추천한 아이템에 대한 유저의 te
gpu를 효율적으로 사용가능하다. 학습 시간이 빠르다.학습 데이터의 분포와 유사해지기 때문에 noise가 적어진다.안정된 수렴을 한다.(local minima에 빠질 수 있다.)과적합이 일어날 수 있다큰 noise를 가진다.적당한 noise는 regularization
0~1사이의 출력값을 갖는 활성화함수.입력이 -6, 6정도에만 가까워도 미분값이 0이 된다.즉 입력의 절댓값이 클수록 작은 미분값을 가진다.최대 미분값이 0.25로, 여러 레이어에 거쳐 backprop하는 경우 gradient vanishing이 야기될 수 있다.exp
배치간의 데이터 분포 차이가 있는 문제 여러 레이어의 연산을 거치면서 각 레이어별로 입력되는 데이터의 분포의 차이가 발생할 수 있고, 이는 학습에 방해가 될 수 있음(Internal Covariate Shift 문제)=> 배치별로 평균과 분산을 구해서 정규화를 시켜주자
Third is Batch Normalization (Ioffe & Szegedy, 2015) which stabilizes learning by normalizing theinput to each unit to have zero mean and unit varianc
데이터를 train / val / test로 분리train data로 기반모델 학습학습된 기반모델로 val data 예측해서 new_train(메타모델 학습용) 생성해서, 메타모델 학습test데이터로 최종 예측 진행train / test 데이터 존재하는 상황에서 tra