[NLP] BigBird 중 Sparse Self-attention

eenzeenee·2023년 6월 8일
0

DeepLearning

목록 보기
5/9

1) Sparse Self-attention

  • 트랜스포머 모델 : 모델의 크기나 입력 토큰의 수가 증가할 때 복잡도 증가 (O(n^2))

  • Big-bird : block sparse attention을 활용하여 4096 토큰까지 활용 가능하도록

  • 성능 개선보다는 효율성 개선에 초점

  • global + sliding + random connection

    • global global
    • sliding sliding
    • random random
    • global + sliding + random global + sliding + random
  • full connection에 비해 그 연결이 적어 복잡도 개선

  • global 토큰이 많은 경우, global connection으로도 정보를 전달하기에 충분하기에 random connection이 필요하지 않을 수 있다. 이러한 아이디어는 num_random_tokens=0으로 유지하며 BigBird 활용 가능하도록

example

profile
Steadily

0개의 댓글