Self-Attention with Relative Position Representations

jihyelee·2024년 9월 15일
0

language-model

목록 보기
10/16

Self-Attention with Relative Position Representations (link, NAACL 2018)

배경지식

Self-Attention

  • 입력 시퀀스 내의 각 요소가 다른 요소와 어떻게 관련되는 지를 계산하는 Transformer의 핵심 메커니즘
  • query, key, value 세 가지 벡터가 중요
    • query란 현재 처리 중인 단어(토큰)로, 다른 단어들과의 관계를 찾고자 하는 주체
    • key란 query와의 유사도를 측정하는 데 사용되는 다른 모든 단어(토큰)
    • value란 실제 단어의 의미를 담고 있는 벡터, 최종 출력 생성 시 사용
    • 세 벡터는 입력 단어의 임베딩에 서로 다른 가중치 행렬(W)을 곱해 생성
      • 가중치 행렬 W는 학습 가능
  • 논문에 있는 표현으로 query, key, value 이해하기
    • 인풋을 x = (x_1, x_2, ... x_n) 이라고 가정
    • x_i와 가중치 행렬 W^Q를 곱한 값이 현재 처리 중인 query
    • x_j와 가중치 행렬 W^K를 곱한 값이 query와의 유사도를 계산하기 위한 key
    • query와 key의 내적을 계산, d_z**(1/2)로 나누는 것은 스케일링을 위함
    • 해당 attention score(e_ij)에 softmax 함수를 적용
    • 모든 출력값의 합이 1이 되며, 각 값은 0과 1사이가 됨
    • 이를 통해 구해진 alpha 값과 value(x_j와 가중치 행렬 W^V를 곱한 값)를 곱함
    • 이러한 과정을 모든 key에 적용. 즉, 하나의 query에 대해 다른 모든 key에 대해 attention score 계산 및 softmax 함수 적용을 반복 수행
    • z란 계산 결과 얻어지는 새로운 시퀀스 (z = (z_1, z_2, ... z_n))

문제점

  • 기존의 Transformer는 명시적으로 위치(position) 정보를 표현
    • RNN과 다르게 순서에 무관한 attention 기반 모델이기 때문에 순서 정보를 포함하는 것이 중요 (순서 정보를 모델 구조에 명시적으로 반영하지 않았으므로)
    • 이를 위해 인풋에 절대적인(absolute) 위치 표현을 더하는 방식 사용
    • 구체적으로, position encoding이 인코더, 디코더의 첫 번째 레이어 이전의 인풋에 추가되는 형식
  • 절대적인 위치 표현이 아니라 상대적인 위치 표현을 적용했을 때의 이점이 있음

해결책

Relation-aware Self-Attention

  • 인풋을 정답이 있고(labeled), 방향성이 있으며(directed), 완전히 연결된(fully-connected) 그래프로 표현
    • 인풋 요소들 사이의 일대일(pairwise) 관계를 표현하기 위함
    • 즉, 인풋 요소들 사이의 상대적인 위치 차이를 포함하기 위함
    • x_i, x_j 사이의 간선을 a_ij^V, a_ij^K라는 벡터로 표현
    • 해당 정보를 위의 식처럼 반영
    • 또한, attention score를 계산할 때에도 해당 정보를 위의 식처럼 반영
    • 효율적인 구현을 위해 이와 같은 변형된 식으로 계산

Relative Position Representations

  • 클리핑(clipping)을 통해 최대 상대 위치(maximum relative position)를 최대 절대 위치(maximum absolute position)인 k로 변경
    • 정확한 상대 위치 정보는 특정 거리 이상에서는 유용하지 않음
    • 모델이 학습 시 보지 못한 거리에 대해서도 잘 일반화할 수 있음

평가

  • 모델
    • Transformer
  • 데이터셋
    • WMT 2014 기계번역 태스크
      • English-German (4.5M 문장쌍)
      • English-French (36M 문장쌍)
  • 평가지표
    • BLEU
profile
Graduate student at Seoul National University, majoring in Artificial Intelligence (NLP). Currently AI Researcher at LG CNS AI Lab

0개의 댓글

관련 채용 정보