Non-Linearity라는 말의 의미와 그 필요성은?
ReLU로 어떻게 곡선 함수를 근사하나?
ReLU의 문제점은?
Bias는 왜 있는걸까?
왜 꼭 Gradient를 써야 할까?
그 그래프에서 가로축과 세로축 각각은 무엇인가?
실제 상황에서는 그 그래프가 어떻게 그려질까?
GD 중에 때때로 Loss가 증가하는 이유는?
중학생이 이해할 수 있게 더 쉽게 설명 한다면?
Back Propagation에 대해서 쉽게 설명 한다면?
GD가 Local Minima 문제를 피하는 방법은?
찾은 해가 Global Minimum인지 아닌지 알 수 있는 방법은?
CNN이 MLP보다 좋은 이유는?
어떤 CNN의 파라메터 개수를 계산해 본다면?
주어진 CNN과 똑같은 MLP를 만들 수 있나?
풀링시에 만약 Max를 사용한다면 그 이유는?
시퀀스 데이터에 CNN을 적용하는 것이 가능할까?
그 그림에서 왼쪽 파라메터들을 임베딩으로 쓰는 이유는?
그 그림에서 오른쪽 파라메터들의 의미는 무엇일까?
남자와 여자가 가까울까? 남자와 자동차가 가까울까?
번역을 Unsupervised로 할 수 있을까?
MNIST AE를 TF나 Keras등으로 만든다면 몇줄일까?
MNIST에 대해서 임베딩 차원을 1로 해도 학습이 될까?
임베딩 차원을 늘렸을 때의 장단점은?
AE 학습시 항상 Loss를 0으로 만들수 있을까?
VAE는 무엇인가?
Validation 세트가 따로 있는 이유는?
Test 세트가 오염되었다는 말의 뜻은?
Regularization이란 무엇인가?
Dropout의 효과는?
BN 적용해서 학습 이후 실제 사용시에 주의할 점은? 코드로는?
GAN에서 Generator 쪽에도 BN을 적용해도 될까?
SGD에서 Stochastic의 의미는?
미니배치를 작게 할때의 장단점은?
모멘텀의 수식을 적어 본다면?
어느 정도 돌아가는 녀석을 작성하기까지 몇시간 정도 걸릴까?
Back Propagation은 몇줄인가?
CNN으로 바꾼다면 얼마나 추가될까?
CNN이 아닌 MLP로 해도 잘 될까?
마지막 레이어 부분에 대해서 설명 한다면?
학습은 BCE loss로 하되 상황을 MSE loss로 보고 싶다면?
만약 한글 (인쇄물) OCR을 만든다면 데이터 수집은 어떻게 할 수 있을까?
GAN의 Loss를 적어보면?
D를 학습할때 G의 Weight을 고정해야 한다. 방법은?
학습이 잘 안될때 시도해 볼 수 있는 방법들은?
학습 중인데 GPU를 100% 사용하지 않고 있다. 이유는?
GPU를 두개 다 쓰고 싶다. 방법은?
학습시 필요한 GPU 메모리는 어떻게 계산하는가?