Transformer - 8. 인코더 구현하기 (by WikiDocs)

AI Scientist를 목표로!·2022년 11월 8일

NLP transformer

지금까지 배운 내용을 바탕으로 인코더를 구현한 코드는 다음과 같습니다.

인코더의 입력으로 들어가는 문장에는 패딩이 있을 수 있으므로, 어텐션 시 패딩 토큰을 제외하도록 패딩 마스크를 사용합니다.

이는 MultiHeadAttention 함수의 mask의 인자값으로 padding_mask가 사용되는 이유입니다.

인코더는 총 두 개의 서브층으로 이루어지는데, 멀티 헤드 어텐션과 피드 포워드 신경망입니다.

각 서브층 이후에는 드롭 아웃, 잔차 연결과 층 정규화가 수행됩니다.

전체 흐름에 대한 그림은 아래와 같습니다.

Encoder 구현하기

def encoder_layer(dff, d_model, num_heads, dropout, name="encoder_layer"):
  inputs = tf.keras.Input(shape=(None, d_model), name="inputs")

  # 인코더는 패딩 마스크 사용
  padding_mask = tf.keras.Input(shape=(1, 1, None), name="padding_mask")

  # 멀티-헤드 어텐션 (첫번째 서브층 / 셀프 어텐션)
  attention = MultiHeadAttention(
      d_model, num_heads, name="attention")
      ({'query': inputs, 
        'key': inputs, 
        'value': inputs, 		# Q = K = V
        'mask': padding_mask # 패딩 마스크 사용})

  # 드롭아웃 + 잔차 연결과 층 정규화
  attention = tf.keras.layers.Dropout(rate=dropout)(attention)
  attention = tf.keras.layers.LayerNormalization(
      epsilon=1e-6)(inputs + attention)

  # 포지션 와이즈 피드 포워드 신경망 (두번째 서브층)
  outputs = tf.keras.layers.Dense(units=dff, activation='relu')(attention)
  outputs = tf.keras.layers.Dense(units=d_model)(outputs)

  # 드롭아웃 + 잔차 연결과 층 정규화
  outputs = tf.keras.layers.Dropout(rate=dropout)(outputs)
  outputs = tf.keras.layers.LayerNormalization(
      epsilon=1e-6)(attention + outputs)

  return tf.keras.Model(
      inputs=[inputs, padding_mask], outputs=outputs, name=name)

Encoder Layer는 2개의 층으로 이루어져 있습니다.

Padding mask 사용
1번째 층: Multi-head Attention -> Dropout -> Residual Connection + Layer Nonm
2번째 층: Position-wise FFNN -> Dropout -> Residual Connection + Layer Norm

Encoder 쌓기

이러한 인코더 층을 num_layers개만큼 쌓고, 마지막 인코더 층에서 얻는 (seq_len, d_model) 크기의 행렬을 디코더로 보내주면서 트랜스포머 인코더의 인코딩 연산이 끝나게 됩니다.

def encoder(vocab_size, num_layers, dff,
            d_model, num_heads, dropout,
            name="encoder"):
  inputs = tf.keras.Input(shape=(None,), name="inputs")

  # 인코더는 패딩 마스크 사용
  padding_mask = tf.keras.Input(shape=(1, 1, None), name="padding_mask")

  # 포지셔널 인코딩 + 드롭아웃
  embeddings = tf.keras.layers.Embedding(vocab_size, d_model)(inputs)
  embeddings *= tf.math.sqrt(tf.cast(d_model, tf.float32))
  embeddings = PositionalEncoding(vocab_size, d_model)(embeddings)
  outputs = tf.keras.layers.Dropout(rate=dropout)(embeddings)

  # 인코더를 num_layers개 쌓기
  for i in range(num_layers):
    outputs = encoder_layer(dff=dff, d_model=d_model, num_heads=num_heads,
        dropout=dropout, name="encoder_layer_{}".format(i),
    )([outputs, padding_mask])

  return tf.keras.Model(
      inputs=[inputs, padding_mask], outputs=outputs, name=name)

AI Scientist를 목표로!

딥러닝 지식의 백지에서 깜지까지

이전 포스트

Transformer - 7. 잔차연결과 층 정규화 (by WikiDocs)

다음 포스트

Transformer - 8. 인코더 구현하기 (by WikiDocs)

Encoder 구현하기

Encoder 쌓기

Transformer - 7. 잔차연결과 층 정규화 (by WikiDocs)

Transformer - 9. 인코더에서 디코더로 (by WikiDocs)

0개의 댓글