foward = inference = forward pass = forward propagation = prediction
output value = predict = inference
MLP(multi layer perceptron) = fully-connected network
error = input gradient = activation gradient
n-layer perceptron = fully-connected network = dense network = feed forward network
input image = input activation = input feature map
output image = output activation = output feature map
filter = kernel = weight
Output channels = Output depth
: A famous optimization algorithm to minimize a cost function by iteratively moving in the direction of steepest descent as mathematically defined by the negative gradient
: finding weight/bias matrices given training data to achieve our goal
0으로 초기화 하면 안됨.
tanh, relU 는 weight가 0에서 영원히 멈추고,
sigmoid는 weight가 똑같이 업데이트 됨
convolution (kernel)의 역할....>
x
x
x
x
o
a
e
a
50
ReLU 사용/ residiual block 사용/ Auxiliary Classifier 사용
단일 sample을 input으로 넣는게 아닌 여러 sample을 input으로 한번에 넣는 것.
1. 전체 dataset에 대해 1번의 weight update을 하는 것은 불가능
2. matrix 연산이 빠르기 때문
1. 옅은 층의 신경망이 exponential하게 hidden unit을 더 필요로 함
2. 깊은 층이 non-linearity가 좋음/ good at generalization
추출한 feature를 classification해주기 위해서
1. activation함수로 tanh, ReLU 사용 시 weight가 0값으로 계속 고정
2. sigmoid 사용 시 weight가 column(혹은 row) 단위로만 update된다.
1x1 convolution을 수행하여 channel size를 조절시켜 줌
epoch별 validation loss(accuracy)를 추출하여 training accuracy와의 격차를 모니터링함. 격차가 벌어지기 시작하면 overfitting이 발생
- model archiecture selection: 너무 복잡한 모델은 오버피팅 일어나므로 적절한 모델 선택
- Larger Dataset Size=> Data Augmentation
- Weight Decay: Suppress weights to be small values. Add L1 or L2 regularization term in the error function
- Early Stopping
- Dropout : Prevent overfitting by reducing co-adaptation of neurons
withoutact func, it's just another linear classifier.
Brevity Penally란 길이가 짧은 문장의 modified n-gram precision을 평가할 떄 패널티를 부여하는 것이다.
BLEU는 문장의 길이가 짧을수록 precision이 높아지기 때문에 이에 대한 Penaty를 부여하게 된다
답a
generator 목적O
d
nueral network that process sequences
RNN
Unrolled RNN
Multi-Layer RNN
use of context vector
Problem of RNN-Bases Seq2Seq
Attention
Attention is General Technique
Attention is all ypu need!
기존의 RNN(LSTM) + Attention 에서 Attention만!
Query, Key, Value
Scaled Dot-Product Attention
Attention Value
Doing It at Once with Matrix Operations
Multi-Head Attention
Pre-Training and Fine-Training
BERT input representaion
BOW
TF-IDF
헷갈리는 정도
Unigram Precision
Modified Unigram Precision
Modified n-gram Precision
BLEU Score
Multiple layers of embedding transformation
At every layer, use the embedding at previous layer as the input – Aggregation of neighbors
▪ Remark: GNN is a general architecture
– CNN and Transformer can be viewed as a special GNN