Self-attention Does Not Need O(n^2) Memory

장한솔·2023년 7월 13일

0

NLP Papers

목록 보기

17/31

Google research.

(들어가는 질문)

Self-attention의 시간과 공간복잡도는?
Self-attention의 시간과 공간복잡도가 그렇게 되는 이유는?

점수 차가 거의 없는 것을 확인할 수 있다.

(질문) 아래 두 수식이 사실상 같은가?

We initialize the vector $v∗$ ∈ $R^d$ and scalar $s∗$ ∈ $R$ with 0.

(질문)

위와 같이 $v$ , $s$ 업데이트 시킬 때에 가장 위 수식과 같은 계산을 하는가?
그렇다면 메모리 관점에서 얻을 수 있는 이득은?

(질문)

softmax 계산에서 수치적 안정성 문제가 발생하는 이유는?
수치적 안정성 문제를 해결하기 위해서 어떤 방법을 취할 수 있는가?

We initialize the vector $v∗$ ∈ $R^d$ and scalar $s∗$ ∈ $R$ with 0, and $m∗$ with $−inf$ .

(질문)

위 수식에서 $e^{m^{*}- m^{i}}$ 초깃값은?
위 수식에서 $m{^*}- m{^i}$ 의 의미는?
다음과 같은 attention matrix 계산은 가장 위 수식과 동일한 결과값을 가져올 수 있는가?
이런 알고리즘이 TPU에서 parallel하게 동작할 수 있을까?

산미 있는 커피를 좋아하는 자연어처리 엔지니어. 일상 속에서 요가와 따릉이를 좋아합니다. 인간의 언어를 이해하고 생성하는 AI 기술 발전을 위해 노력하고 있습니다. 🧘‍♀️🚲☕️💻

이전 포스트

Large Dual Encoders Are Generalizable Retrievers

다음 포스트

Zero-Shot & Few-Shot Open-Domain QA

0개의 댓글