Perceiver - General Perception with Iterative Attention

๋А๋ฆฌยท2025๋…„ 4์›” 30์ผ
0

paper-review

๋ชฉ๋ก ๋ณด๊ธฐ
10/15

'25 ์•„ํ‚คํ…์ฒ˜ ์Šคํ„ฐ๋”” 5์ฃผ์ฐจ
paper link

[!summary] Abstract
1. ๐Ÿค– Perceiver๋Š” Transformer๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋ฉฐ, ๋‹ค์–‘ํ•œ modality์˜ ๊ณ ์ฐจ์› ์ž…๋ ฅ ์ฒ˜๋ฆฌ๋ฅผ ์œ„ํ•ด ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
2. โš™๏ธ ์ด ๋ชจ๋ธ์€ ๋น„๋Œ€์นญ์ ์ธ attention ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์‚ฌ์šฉํ•˜์—ฌ ์ž…๋ ฅ์„ ์ž‘์€ latent bottleneck์œผ๋กœ ๋ฐ˜๋ณต์ ์œผ๋กœ ์••์ถ•ํ•˜์—ฌ ํฐ ์ž…๋ ฅ๋„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
3. ๐Ÿ† Perceiver๋Š” ์ด๋ฏธ์ง€, ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ, ์˜ค๋””์˜ค, ๋น„๋””์˜ค ๋“ฑ ๋‹ค์–‘ํ•œ modality์—์„œ ํŠนํ™”๋œ ๋ชจ๋ธ๋“ค๊ณผ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

  • ์–ธ์–ด, ์ด๋ฏธ์ง€, ์†Œ๋ฆฌ, ์˜์ƒ๊ณต๊ฐ„ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ๋ชจ๋ธ
  • Perceiver๋Š” ํŠธ๋žœ์Šคํฌ๋จธ๋ฅผ ์•ฝ๊ฐ„ ์ˆ˜์ •ํ•ด์„œ ๋งŒ๋“  ๋ชจ๋ธ๋กœ, ๋ชจ๋“  ์ข…๋ฅ˜์˜ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค๋ฃจ๋„๋ก ํ•˜์—ฌ ์ด๋ฏธ์ง€ ์ธ์‹ ๋“ฑ ๋Œ€๊ฐœ ๋ณ„๋„์˜ ์‹ ๊ฒฝ๋ง ๊ฐœ๋ฐœ์ด ํ•„์š”ํ•œ ํƒœ์Šคํฌ ๋˜ํ•œ ์ˆ˜ํ–‰์ด ๊ฐ€๋Šฅํ•˜๋‹ค!
  • ์‚ฌ๋žŒ์€ ์ˆ˜๋งŽ์€ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์— ๋Œ€ํ•ด์„œ ์œ ์šฉํ•œ ํ‘œํ˜„(ํŠน์ง•, Representation)์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๊ณ , ์†Œ๋Ÿ‰์˜ ๋ฐ์ดํ„ฐ ๋ฐ ํƒœ์Šคํฌ ์˜ˆ์‹œ๋งŒ์œผ๋กœ๋„ ๋น ๋ฅด๊ฒŒ ์ƒˆ๋กœ์šด ํƒœ์Šคํฌ๋ฅผ ํ’€ ์ˆ˜ ์žˆ์Œ. ์ด๊ฒŒ ๊ฐ€๋Šฅํ•œ ๊ฑด ์‚ฌ๋žŒ์€ ์ด๋ฏธ ์„ธ์ƒ์— ๋Œ€ํ•ด ์•Œ๊ณ  ์žˆ๋Š” ๋ชจ๋“  ๊ฒƒ์„ ์ƒˆ๋กœ์šด ์˜์—ญ์— ํ™œ์šฉํ•˜๊ธฐ ๋•Œ๋ฌธ
    -> Perceiver๋Š” ์ด๋Ÿฌํ•œ ๋ฉ€ํ‹ฐํƒœ์Šคํ‚น ์ ‘๊ทผ๋ฒ•์„ ๊ฐ€์ง€๋ฉฐ ์ด๋ฏธ์ง€, ์˜์ƒ, ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ ์„ธ ๊ฐ€์ง€ ์ข…๋ฅ˜์˜ ์ž…๋ ฅ์„ ๋ฐ›์•„๋“ค์ผ ์ˆ˜ ์žˆ๋Š” ๋ชจ๋ธ์ž„!
  • ๋•Œ๋ฌธ์— ์ด๋Ÿฌํ•œ Perceiver์˜ ์œ ์—ฐ์„ฑ์€ ๋ชจ๋ธ ์„ค๊ณ„์— ๋“œ๋Š” ๋…ธ๋ ฅ์„ ์ค„์—ฌ์ฃผ๊ณ , ๋‹ค์–‘ํ•œ modality์˜ ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ฉ์ ์œผ๋กœ ๋ถ„์„ํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐ€๋Šฅ์„ฑ์„ ์—ด์–ด์ค€๋‹ค.

Introduction

  • ์ด ๋…ผ๋ฌธ์—์„œ๋Š” ๋‹จ์ผ ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ๋ฐ˜ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์ด์šฉํ•˜์—ฌ ๋‹ค์–‘ํ•œ modality์˜ ์ž„์˜์˜ ๊ตฌ์„ฑ์„ ์ฒ˜๋ฆฌํ•˜๋„๋ก ์„ค๊ณ„๋œ ๋ชจ๋ธ์ธ Perceiver๋ฅผ ์†Œ๊ฐœํ•œ๋‹ค!
  • Transformer๋Š”

Methods

The Perceiver Architecture

  • ํŠน์ • ๋„๋ฉ”์ธ ๊ฐ€์ •์ด ์—†์ด ๋‹ค์ค‘ ์–‘์‹ ์ข‹๋ฐ”๊ณผ ๊ฐ™์€ ๊ณ ์ฐจ์›์œผ๋กœ ํ™•์žฅ๋˜๋Š” attention ์›๋ฆฌ์— ๊ธฐ๋ฐ˜ํ•œ ์•„ํ‚คํ…์ฒ˜
  • ์ฃผ์š” ๋ชฉํ‘œ! : ๋งค์šฐ ํฐ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ(ex. ์ด๋ฏธ์ง€ ํ”ฝ์…€, ์˜ค๋””์–ด ์ƒ˜ํ”Œ, ๊ธด ํ…์ŠคํŠธ)๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๋Š” ๊ฒƒ.

1. ์ž…๋ ฅ(input)

  • byte Array(MXC) : ๋ชจ๋ธ์ด ์ฒ˜๋ฆฌํ•˜๋ ค๋Š” ์ฃผ๋œ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์ด๋ฉฐ ํฌ๊ธฐ๊ฐ€ ๋งค์šฐ ํด ์ˆ˜ ์žˆ์Œ(M). ๊ฐ ์š”์†Œ๋Š” C ์ฐจ์›์˜ ํŠน์ง• ๋ฒกํ„ฐ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค.
  • Latent Array(NXD) : ์ƒ๋Œ€์ ์œผ๋กœ ์ž‘์€ ํฌ๊ธฐ์˜ ํ•™์Šต ๊ฐ€๋Šฅํ•œ ์ž ์žฌ(latent) ๋ฒกํ„ฐ ๋ฐฐ์—ด๋กœ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์˜ ์ •๋ณด๋ฅผ ์š”์•ฝํ•˜๊ณ  ์ฒ˜๋ฆฌํ•˜๋Š” ์ž‘์—… ๊ณต๊ฐ„์˜ ์—ญํ• ์„ ํ•œ๋‹ค.

2. ์ฒ˜๋ฆฌ(Processing Block)

Cross Attention

์ด๋ฅผ ์ด์šฉํ•ด ์ด์ฐจ ๋ณต์žก๋„๋ฅผ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ๋‹ค.

  • Latent Array์™€ Byte Array๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›๋Š”๋‹ค.

  • Latent array์—์„œ query(Q)๋ฅผ ์ƒ์„ฑํ•˜๊ณ , Byte array์—์„œ Key(K)์™€ Value(V)๋ฅผ ์ƒ์„ฑํ•œ๋‹ค. ๊ทธ๋Ÿฐ ๋‹ค์Œ, Latent array์˜ ๊ฐ ๋ฒกํ„ฐ๊ฐ€ Byte array ์ „์ฒด์— ๋Œ€ํ•ด ์–ดํ…์…˜์„ ์ˆ˜ํ–‰ํ•ด์„œ ์ •๋ณด๋ฅผ ๊ฐ€์ง€๊ณ  ์˜จ๋‹ค.
    -> ์ž ์žฌ ๋ฒกํ„ฐ๋“ค์ด ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์—์„œ ์–ด๋–ค ์ •๋ณด์— ์ฃผ๋ชฉํ•ด์•ผ ํ• ์ง€๋ฅผ ํ•™์Šต

  • ์ถœ๋ ฅ : Latent array์™€ ๋™์ผํ•œ ํฌ๊ธฐ(NXD)์˜ ์—…๋ฐ์ดํŠธ๋œ ์ž ์žฌ ๋ฐฐ์—ด์„ ์ถœ๋ ฅํ•œ๋‹ค.
    = ํฐ Byte array์˜ ์ •๋ณด๊ฐ€ ์ž‘์€ latent array๋กœ ์••์ถ•/์š”์•ฝ๋˜๋Š” ๊ฒƒ

  • ๊ณ„์‚ฐ ๋ณต์žก๋„๋Š” ๋Œ€๋žต O(N*M) : N์ด ์ž‘๊ธฐ ๋–„๋ฌธ์— Byte Array ์ „์ฒด์— ๋Œ€ํ•ด์„œ ์…€ํ”„ ์–ดํ…์…˜์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ํ›จ์”ฌ ํšจ์œจ์ ์ž„!!

  • ์—ฌ๊ธฐ์„œ ์ž ์žฌ ๋ฐฐ์—ด์˜ ํฌ๊ธฐ๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ ์ž‘์œผ๋ฉฐ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋กœ ์ •ํ•จ!

[!note] Taming quadratic complexity with cross-attention

  • attention์„ ์ค‘์‹ฌ์œผ๋กœ ์•„ํ‚คํ…์ฒ˜๋ฅผ ๊ตฌ์„ฑํ•˜๋Š” ์ด์œ ๋Š” attention์ด ์ผ๋ฐ˜์ ์œผ๋กœ ์ ์šฉ ๊ฐ€๋Šฅํ•˜๊ณ  ์‹ค์ œ๋กœ ๊ฐ•๋ ฅํ•˜๊ธฐ ๋•Œ๋ฌธ!
Latent Transformer
  • ์ž…๋ ฅ : ์ด์ „ย Cross Attentionย ๋ธ”๋ก์˜ ์ถœ๋ ฅ (N x Dย ํฌ๊ธฐ์˜ ์ž ์žฌ ๋ฐฐ์—ด)์„ ๋ฐ›๋Š”๋‹ค.

  • ์ด์ „ step์—์„œ Byte array์—์„œ ๊ด€๋ จ ์ •๋ณด๋ฅด ๋Œ์–ด์™€ Latent array ๋ฒกํ„ฐ์˜ ๊ฐ ๋ฒกํ„ฐ๋ฅผ ์—…๋ฐ์ดํŠธํ•จ
    = ์ž ์žฌ ๋ฒกํ„ฐ์—๋Š” ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์˜ ํŠน์ • ๋ถ€๋ถ„์ด๋‚˜ ์ธก๋ฉด์— ๋Œ€ํ•œ ์ •๋ณด๊ฐ€ ์žˆ์Œ
    = BUT! ์ด ์ •๋ณด๋“ค์€ ์•„์ง ๊ฐœ๋ณ„์ ์œผ๋กœ ์กด์žฌํ•˜๋ฉฐ, ์„œ๋กœ ์—ฐ๊ฒฐ๋˜๊ฑฐ๋‚˜ ์ข…ํ•ฉ์ ์œผ๋กœ ์ฒ˜๋ฆฌ๋˜์ง€ ์•Š์Œ

  • Latent Transformer์€ Self-Attention์™€ Feed-Forward Network๋กœ ๊ตฌ์„ฑ๋จ.
    = Self-Attention์„ ํ†ตํ•ด ๊ฐ ์ž ์žฌ ๋ฒกํ„ฐ๋Š” ๋‹ค๋ฅธ ์ž ์žฌ ๋ฒกํ„ฐ๋“ค์˜ ์ •๋ณด๋ฅผ ์ฐธ๊ณ ํ•˜์—ฌ ์ž์‹ ์˜ ํ‘œํ˜„์„ ์—…๋ฐ์ดํŠธ

  • ์ด๋•Œ latent transformer๋Š” GPT-2 ์•„ํ‚คํ…์ฒ˜๋ฅผ ์‚ฌ์šฉํ•จ.

  • ์ด ๋ถ€๋ถ„์€ ์ž…๋ ฅ ํฌ๊ธฐ์™€๋Š” ๋ฌด๊ด€ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์•„์ฃผ ๊นŠ๊ฒŒ ์Œ“์•„๋„ ๋ถ€๋‹ด์ด ์ ๋‹ค.

  • Cross-attention์˜ ์ถœ๋ ฅ์€ Latent ๋ฐฐ์—ด ํ˜•ํƒœ๋ฅผ ๊ฐ€์ง€๋ฏ€๋กœ ์ด๋ฅผ ํ†ตํ•ด bottlenexk(๋ณ‘๋ชฉ)์ด ์ƒ๊ธด๋‹ค.

  • ์šฐ๋ฆฌ๋Š” ์ด bottleneck์„ ํ†ตํ•ด Latent ๊ณต๊ฐ„์—์„œ ๊นŠ์€ Transformer๋ฅผ ๋งŒ๋“ค ์ˆ˜ ์žˆ์Œ
    = ์ด ๊ฒฝ์šฐ ๋ณต์žก๋„๋Š” O(N^2)

  • Perceiver๋Š” ์ด๋ ‡๊ฒŒ ํ•ด์„œ ์ž…๋ ฅ ํฌ๊ธฐ(M)์™€ ๋„คํŠธ์›Œํฌ ๊นŠ์ด(L)์„ ๋ถ„๋ฆฌํ•  ์ˆ˜ ์žˆ์Œ
    = ==์ผ๋ฐ˜ Transforemer๊ฐ€ O(L x M^2) ์˜ ๋ณต์žก๋„๋ฅผ ๊ฐ€์ง„๋‹ค๋ฉด Perceiver๋Š” O(Mร—N + Lร—Nยฒ)==

์ด ์‹คํ—˜์—์„œ๋Š” Latent Transformer ์—†์ด ์˜ค์ง Cross-Attention ๋งŒ ์Œ“์•„์„œ ๋ชจ๋ธ์„ ๊ตฌ์„ฑํ•œ ๊ฒƒ์ด๋‹ค. ๋˜ํ•œ, ๊ฐ Cross-Attention ๋ ˆ์ด์–ด๋Š” ์„œ๋กœ ๊ฐ€์ค‘์น˜๋ฅผ ๊ณต์œ ํ•˜์ง€ ์•Š๋Š”๋‹ค!
์ด๋•Œ ๋ ˆ์ด์–ด ์ˆ˜๊ฐ€ ๋Š˜์–ด๋‚จ์— ๋”ฐ๋ผ์„œ ๋ชจ๋ธ์˜ ์—ฐ์ƒ๋Ÿ‰์ด ๊ธ‰๊ฒฉํ•˜๊ฒŒ ์ฆ๊ฐ€ํ•˜๋‹ค๊ฐ€, 12๊ฐœ์—์„œ๋Š” ๊ฒฐ๊ตญ ๋ฉ”๋ชจ๋ฆฌ ๋ถ€์กฑ(OOM : Out Of Memory) ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•ด ๊ฒฐ๊ณผ๋ฅผ ์–ป์ง€ ๋ชปํ–ˆ๋‹ค.
= Latent Transformer๊ฐ€ ํ•„์š”ํ•จ!

[!note] Feed Forward Network

  • Self-attention์ด ์ •๋ณด์˜ ๊ด€๊ณ„์™€ ํ˜ผํ•ฉ์„ ๋‹ด๋‹นํ•œ๋‹ค๋ฉด, FFN์€ ๊ฐœ๋ณ„ ์ •๋ณด์˜ ๋‚ด์šฉ์„ ์‹ฌํ™”ํ•˜๊ณ  ๋ณ€ํ™˜ํ•˜๋Š” ์—ญํ• ์„ ํ•œ๋‹ค!
  • ์—ฌ๋Ÿฌ ์ธต์„ ์Œ“๋Š” ๋ฐฉ์‹์œผ๋กœ ์„ค๊ณ„๋˜๋ฉฐ ๊ฐ ์ธต์€ ์ด์ „ ์ธต์˜ ์ถœ๋ ฅ์„ ๋ฐ›์•„๋“ค์—ฌ ๋‹ค์Œ ์ธต์— ์ „๋‹ฌํ•จ
  • ํ™œ์„ฑํ™” ํ•จ์ˆ˜(ex. RELU, Sigmoid, Tanh) ๋“ฑ์„ ์‚ฌ์šฉํ•ด์„œ ๋น„์„ ํ˜„ ๋ณ€ํ™˜ ์ˆ˜ํ–‰ -> ๋ณต์žกํ•œ ํ•จ์ˆ˜๋‚˜ ๊ด€๊ณ„๋ฅผ ๋ชจ๋ธ๋งํ•  ์ˆ˜ ์žˆ์Œ (better than ์„ ํ˜• ํšŒ๊ท€)

3. ๋ฐ˜๋ณต๊ณผ ๊ฐ€์ค‘์น˜ ๊ณต์œ 

  • Our model applies the cross-attention module and the Transformer in alternation
  • Cross Attention๊ณผ Latent Transformer ๋ธ”๋ก ์Œ์ด ์—ฌ๋Ÿฌ ๋ฒˆ ๋ฐ˜๋ณต๋จ
  • ๋ฐ˜๋ณต๋˜๋Š” ์ด์œ 
    ์ž ์žฌ ๋ฐฐ์—ด์˜ ํฌ๊ธฐ(N)์€ ์ž…๋ ฅ ๋ฐ”์ดํŠธ ๋ฐฐ์—ด์˜ ํฌ๊ธฐ(M)๋ณด๋‹ค ํ›จ์”ฌ ์ž‘๋‹ค. ๋•Œ๋ฌธ์— ํ•œ ๋ฒˆ์˜ cross attention ๋งŒ์œผ๋กœ๋Š” ๊ฑฐ๋Œ€ํ•œ ์ž…๋ ฅ(MXC)์˜ ๋ชจ๋“  ์ค‘์š”ํ•œ ์ •๋ณด๋ฅผ ์ž‘์€ ์ž ์žฌ ๋ฐฐ์—ด(NXD)๋กœ ์™„๋ฒฝํ•˜๊ฒŒ ์••์ถ•ํ•˜๊ธฐ ์–ด๋ ค์›€!
  • ๋ณ‘๋ชฉ ํ˜„์ƒ์˜ ์‹ฌ๊ฐ์„ฑ!

์ด ํ‘œ๋Š” Cross-Attention์„ ์‚ฌ์ด์—, ๊ทธ๋ฆฌ๊ณ  ์‹œ์ž‘์ ์— ๋ชฐ์•„์„œ ๋ฐฐ์น˜ํ–ˆ์„ ๋•Œ ๊ทธ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค€๋‹ค.
์ด๋•Œ Cross-Attention ์ˆ˜๋ฅผ ๋Š˜๋ฆด ์ˆ˜๋ก at start ๋ฐฉ์‹์€ ์ ์  ์„ฑ๋Šฅ์ด ์ €ํ•˜๋˜๋Š” ๊ฒƒ์„ ๋ณผ ์ˆ˜ ์žˆ์Œ!
= ์ ์ง„์  ์ •๋ณด ์ฒ˜๋ฆฌ๊ฐ€ ์ค‘์š”ํ•˜๋‹ค! = ์ž…๋ ฅ์„ ํ•œ๋ฒˆ์— ์ฒ˜๋ฆฌํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ์ž…๋ ฅ์—์„œ ์ •๋ณด๋ฅผ ๊ฐ€์ ธ์˜ค๊ณ , ๊ทธ ์ •๋ณด๋ฅผ ์ž ์žฌ ๊ณต๊ฐ„์—์„œ ์ฒ˜๋ฆฌํ•œ ๋‹ค์Œ(Latent Transformer), ๋‹ค์‹œ ๋˜ ์ฒ˜๋ฆฌ๋œ ์ •๋ณด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์ž…๋ ฅ์—์„œ ํ•„์š”ํ•œ ์ •๋ณด๋ฅผ ๊ฐ€์ ธ์˜ค๋Š”(๋‹ค์Œ Cross Attention) ๊ณผ์ •์ด ๋” ํšจ๊ณผ์ ์ž„!

4. ์ถœ๋ ฅ(Output)

  • ์—ฌ๋Ÿฌ ๋ฒˆ์˜ ์ฒ˜๋ฆฌ ๋ธ”๋ก ๋ฐ˜๋ณต ํ›„, ์ตœ์ข…์ ์œผ๋กœ ์ •์ฒด๋œ Latent array(NXD)๊ฐ€ ์ƒ์„ฑ๋œ๋‹ค.
ํ‰๊ท 

์ตœ์ข… ์ž ์žฌ ๋ฐฐ์—ด์˜ ๋ชจ๋“  ๋ฒกํ„ฐ(N๊ฐœ)๋ฅผ ํ‰๊ท ๋‚ด์–ด ํ•˜๋‚˜์˜ ์š”์•ฝ ๋ฒกํ„ฐ(D์ฐจ์›)์„ ๋งŒ๋“ ๋‹ค.

  • ์›๋ž˜:ย N๊ฐœ์˜ ๋ฒกํ„ฐ๊ฐ€ ์žˆ์—ˆ๊ณ , ๊ฐ ๋ฒกํ„ฐ๋Š”ย D์ฐจ์›(์ฆ‰, ํ–‰๋ ฌ์˜ ํฌ๊ธฐ๋Š”ย N x D).
  • ํ‰๊ท  ์—ฐ์‚ฐ ํ›„:ย 1๊ฐœ์˜ ๋ฒกํ„ฐ๊ฐ€ ๋‚จ๊ฒŒ ๋˜๋ฉฐ, ์ด ๋ฒกํ„ฐ๋Š” ์—ฌ์ „ํžˆย D์ฐจ์› (์ฆ‰, ๋ฒกํ„ฐ์˜ ํฌ๊ธฐ๋Š”ย 1 x Dย ๋˜๋Š” ๊ทธ๋ƒฅย D).
Logits

์ด ์ตœ์ข… ์š”์•ฝ ๋ฒกํ„ฐ(D์ฐจ์›)๋ฅผ ์„ ํ˜• ๋ ˆ๋ฆฌ์–ด์— ํ†ต๊ณผ์‹œ์ผœ ๋ถ„๋ฅ˜๋‚˜ ํšŒ๊ท€ ๋“ฑ ํŠน์ • ์ž‘์—…์— ๋Œ€ํ•œ ์ตœ์ข… ์˜ˆ์ธก ๊ฐ’์„ ์ƒ์„ฑํ•จ.

Position Encodings

Attention์€ ๊ณต๊ฐ„ ์ •๋ณด๊ฐ€ ์—†๊ธฐ ๋•Œ๋ฌธ์— ์œ„์น˜ ์ธ์ฝ”๋”ฉ์„ ์ค˜์•ผ ํ•œ๋‹ค!

PosEnc(xd)=[sinโก(fkฯ€xd),cosโก(fkฯ€xd)]ย forย eachย dimensionย d]\text{PosEnc}(x_d) = \left[ \sin(f_k \pi x_d), \cos(f_k \pi x_d) \right] \text{ for each dimension } d ]

Positional Encoding์€ ์ฃผ๋กœ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ(byte array)์— ํ•œ ๋ฒˆ, ๊ทธ๋ฆฌ๊ณ  ์ฒซ ๋ฒˆ์งธ cross-attention ๋“ค์–ด๊ฐ€๊ธฐ ์ „์— ํ•œ ๋ฒˆ ์ ์šฉ๋œ๋‹ค.

  • Byte array์˜ ๊ฐ ์š”์†Œ๊ฐ€ ์›๋ž˜ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์—์„œ ์–ด๋–ค ์ ˆ๋Œ€์ ์ธ ์œ„์น˜์— ์žˆ์—ˆ๋Š”์ง€์— ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ์ œ๊ณตํ•จ

Experiments

Image - ImageNet

ImageNet ๋ฐ์ดํ„ฐ์…‹์„ ์‚ฌ์šฉํ•˜์—ฌ ๋‹จ์ผ ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜๋ฅผ ํ–ˆ๊ณ  Top-1 ๊ฒ€์ฆ ์ •ํ™•๋„๋ฅผ ์ด์šฉํ•ด์„œ ํ‰๊ฐ€๋ฅผ ์ง„ํ–‰ํ•˜์˜€๋‹ค.

์œ„์น˜ ์ธ์ฝ”๋”ฉ ์„ค์ •

ImageNet ์‹คํ—˜์—์„œ ์œ„์น˜ ์ธ์ฝ”๋”ฉ์€ ์–ด๋–ป๊ฒŒ ์„ค์ •ํ–ˆ์„๊นŒ?

1. ํฌ๋กญ๋œ ์ด๋ฏธ์ง€ ํ”ฝ์…€ ์ขŒํ‘œ ์‚ฌ์šฉ

ImageNet์˜ ์ด๋ฏธ์ง€๋Š” ํฌ๊ธฐ๊ฐ€ ๋‹ค์–‘ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋ณดํ†ต ๋ชจ๋ธ์— ๋„ฃ๊ธฐ ์ „์— 224x224 ํ”ฝ์…€ ํฌ๊ธฐ๋กœ ์ด๋ฏธ์ง€๋ฅผ ์ž˜๋ผ๋‚ด๊ฑฐ๋‚˜ ํฌ๊ธฐ๋ฅผ ์กฐ์ ˆํ•œ๋‹ค.

์—ฌ๊ธฐ์„œ ์™œ ์›๋ณธ ์ด๋ฏธ์ง€ ์ „์ฒด๊ฐ€ ์•„๋‹ˆ๋ผ ==ํฌ๋กญ๋œ ์ด๋ฏธ์ง€์˜ ์ขŒํ‘œ==๋ฅผ ์“ฐ๋Š” ๊ฑธ๊นŒ?
๋งŒ์•ฝ ์–ด๋–ค ํ”ฝ์…€์ด๋“  ์ ˆ๋Œ€์ ์ธ ์œ„์น˜๋ฅผ ๊ธฐ์ค€์œผ๋กœ ๊ณ„์‚ฐ๋œ๋‹ค๊ณ  ํ•œ๋‹ค๋ฉด, ํŠน์ • ์œ„์น˜์— ์žˆ๋Š” ํ”ฝ์…€์˜ RGB ๊ฐ’์ด ํŠน์ • ํŒจํ„ด์ด๋ฉด ์ด๊ฑด ๊ฐ•์•„์ง€์ผ ํ™•๋ฅ ์ด ๋†’๊ตฌ๋‚˜! ๋ผ๊ณ  ์•”๊ธฐํ•ด๋ฒ„๋ ค ๊ณผ์ ํ•ฉ์ด ์ผ์–ด๋‚  ์ˆ˜ ์žˆ๋‹ค.

Crop ์ขŒํ‘œ๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ์œ„์น˜์™€ ๊ฐ€๋กœ์„ธ๋กœ ๋น„์œจ ๋ชจ๋‘์—์„œ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ• ํšจ๊ณผ๊ฐ€ ๋ฐœ์ƒํ•˜๊ธฐ ๋–„๋ฌธ์— RGB ๊ฐ’๊ณผ ์œ„์น˜ ํŠน์ง• ๊ฐ„์˜ ๊ณ ์ •๋œ ์ƒ๊ด€๊ด€๊ณ„๋ฅผ ๊นจํŠธ๋ฆฐ๋‹ค!

2. ์ขŒํ‘œ๊ฐ’์€ [-1, 1] ๋ฒ”์œ„๋กœ ๋ณ€ํ™˜

์ขŒํ‘œ๊ฐ’์˜ ๋ฒ”์œ„๋ฅผ ์ผ์ •ํ•˜๊ฒŒ ๋งž์ถ”๋ฉด ๋ชจ๋ธ์ด ํ•™์Šตํ•˜๊ธฐ ๋” ์‰ฌ์›Œ์ง€๊ธฐ ๋•Œ๋ฌธ

3. ํ‘œ์ค€ํ™”๋œ ์ขŒํ‘œ๋กœ ์ธ์ฝ”๋”ฉ ๋ฒกํ„ฐ ๋งŒ๋“ค๊ธฐ

์ด๋•Œ ํ‘ธ๋ฆฌ์— ํŠน์ง•(Fourier Features)์„ ์‚ฌ์šฉํ•œ๋‹ค.

ํ‘ธ๋ฆฌ์— ํŠน์ง•์ด๋ž€? ๊ฐ„๋‹จํžˆ ๋งํ•ด์„œ ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ๋‹ค๋ฅธ ์ฃผํŒŒ์ˆ˜๋ฅผ ๊ฐ€์ง„ cos์™€ sin์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ!

4. ์ธ์ฝ”๋”ฉ ๋ฒกํ„ฐ์™€ ํ”ฝ์…€ ์ •๋ณด ํ•ฉ์น˜๊ธฐ

์ด ์œ„์น˜ ์ธ์ฝ”๋”ฉ ๋ฒกํ„ฐ๋ฅผ ํ•ด๋‹น ํ”ฝ์…€์˜ RGB ์ •๋ณด์™€ ํ•ฉ์ณ์„œ ์ตœ์ข… ์ž…๋ ฅ ๋ฒกํ„ฐ๋ฅผ ๋งŒ๋“ ๋‹ค!

๊ณผ์ •

ํ•™์Šต์€ 120 ์—ํฌํฌ, ์ดˆ๊ธฐ ํ•™์Šต๋ฅ  0.004
Cross-attention์€ ์ด 8๋ฒˆ ์ˆ˜ํ–‰ํ•˜์˜€์Œ๋ฉฐ ์ดํ›„์—๋Š” 6๊ฐœ์˜ ๋ธ”๋ก์œผ๋กœ ๊ตฌ์„ฑ๋œ Latent Transformer๋ฅผ ๊ตฌ์„ฑํ•˜์˜€๋‹ค.
= Cross-Att -> 6 Latent Blocks -> Cross-Att -> 6 Latent Blocks ...ย 8๋ฒˆ ๋ฐ˜๋ณต)

๊ฒฐ๊ณผ

==Standard ImageNet ๊ฒฐ๊ณผ==

์ตœ๊ณ  ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์คŒ

==Permuted ImageNet ๊ฒฐ๊ณผ==
ํ”ฝ์…€ ์ˆœ์„œ๋ฅผ ์ž„์˜๋กœ ์„ž์Œ! ๊ทธ๋Ÿฌ๋ฉด 2D ๊ฒฉ์ž ๊ตฌ์กฐ์—์„œ ๋‹น์—ฐํ–ˆ๋˜ ์ด์›ƒ ๊ด€๊ณ„๊ฐ€ ๊นจ์ ธ๋ฒ„๋ฆฐ๋‹ค.

Resnet์ด๋‚˜ Vit ์— ๋น„ํ•ด์„œ ์›๋ณธ ๋ฐ์ดํ„ฐ์™€ ์ˆœ์„œ๋ฅผ ๋ฌด์ž‘์œ„๋กœ ๋ฐ”๋€ ๋ฐ์ดํ„ฐ์—์„œ ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์ด๊ณ  ์žˆ์Œ!
= ์œ„์น˜ ์ธ์ฝ”๋”ฉ์˜ ์—ญํ•  ์žฌํ™•์ธ
= ์• ์ดˆ์— ์ž…๋ ฅ์„ 1D ์‹œํ€€์Šค๋‚˜ ์ง‘ํ•ฉ์œผ๋กœ ๊ฐ„์ฃผํ•˜๊ณ  ๊ด€๊ณ„๋Š” ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜๊ณผ ๋ช…์‹œ์  ์œ„์น˜ ์ธ์ฝ”๋”ฉ์„ ํ†ตํ•ด ํ•™์Šตํ•˜๋ฏ€๋กœ ํฌ๊ฒŒ ์ƒ๊ด€์ด ์—†๋‹ค!
= ํŠน์ •ํ•œ ๊ณต๊ฐ„๊ตฌ์กฐ(ex.2D)์— ๋Œ€ํ•œ ๊ฐ€์ •์ด ๊ฑฐ์˜ ์—†๋Š” ๋งค์šฐ ์ผ๋ฐ˜์ ์ธ(general) ์•„ํ‚คํ…์ฒ˜๋‹ค!!
(๊ฒฉ์ž๊ตฌ์กฐ ์•„๋‹ˆ์–ด๋„ ๋ผ!)

==Attention Map==
์—…๋กœ๋“œ์ค‘..

์ฒซ ๋ฒˆ์งธ ๊ทธ๋ฆผ์€ ์›๋ณธ
ํŒŒ๋ž€ ํ…Œ๋‘๋ฆฌ๋Š” ์–ด๋””์— ์ง‘์ค‘ํ•  ๊ฒƒ์ธ์ง€ ํ•ต์‹ฌ ๋Œ€์ƒ ์ฐพ๊ธฐ
3~4๋ฒˆ์งธ ๊ทธ๋ฆผ์€ ๊ธฐ์ˆ ์ ์œผ๋กœ ์‚ฌ์ง„์„ ๋œฏ์–ด๋ณด๋Š” ๊ฒƒ.

Audio and video - AudioSet

์‚ฌ์šฉํ•œ ๋ฐ์ดํ„ฐ์…‹์€ AudioSet(170๊ฐœ์˜ 10์ดˆ์งœ๋ฆฌ ๋น„๋””์˜ค, 527๊ฐœ ์†Œ๋ฆฌ ํด๋ž˜์Šค)
ํ‰๊ฐ€ ์ง€ํ‘œ๋Š” mAP(mean Average Precision)
์ž…๋ ฅ ์ข…๋ฅ˜๋Š” 1) ์†Œ๋ฆฌ๋งŒ ์ž…๋ ฅ 2) ์˜์ƒ๋งŒ ์ž…๋ ฅ 3) ์†Œ๋ฆฌ+์˜์ƒ ๋™์‹œ ์ž…๋ ฅ

==๋ชจ๋ธ ๊ตฌ์กฐ==
AudioSet์€ ๋ฐ์ดํ„ฐ ๊ทœ๋ชจ๊ฐ€ ํฌ๋ฏ€๋กœ ๋” ๋น ๋ฅธ ๋ฒ„์ „์˜ Perceiver๋ฅผ ์‚ฌ์šฉํ•จ

  • Cross-attention : 8๋ฒˆ -> 2๋ฒˆ

  • Latent Transformer ๊นŠ์ด ์ฆ๊ฐ€ : ๋ธ”๋ก๋‹น 6๊ฐœ -> 8๊ฐœ

  • ์†Œ๋ฆฌ๋งŒ ์ž…๋ ฅํ–ˆ์„ ๊ฒฝ์šฐ๋‚˜ ๋น„๋””์˜ค๋งŒ ์ž…๋ ฅํ–ˆ์„ ๊ฒฝ์šฐ SOTA ๋ชจ๋ธ์— ๊ทผ์ ‘ํ•จ

  • ํŠนํžˆ Raw audio์—์„œ๋„ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋‚ธ๋‹ค!
    = ์ „ํ†ต์ ์œผ๋กœ ์˜ค๋””์˜ค๋ฅผ ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ๋กœ ์ฒ˜๋ฆฌํ•  ๋•Œ๋Š” ์›์‹œ ์˜ค๋””์˜ค ํŒŒํ˜•์„ ๊ทธ๋Œ€๋กœ ์‚ฌ์šฉํ•˜๊ธฐ ๋ณด๋‹ค ์ŠคํŽ™ํŠธ๋กœ๊ทธ๋žจ ๊ฐ™์€ ํ˜•ํƒœ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๊ฒƒ์ด ์ผ๋ฐ˜์ ์ด์—ˆ์Œ!
    = ์ŠคํŽ™ํŠธ๋กœ๊ทธ๋žจ ๋ณ€ํ™˜ ๊ณผ์ •์—์„œ ์†์‹ค๋  ์ˆ˜ ์žˆ๋Š” ๋ชจ๋“  ์ž ์žฌ์ ์ธ ์ •๋ณด๋ฅผ ๋ชจ๋ธ์ด ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐ€๋Šฅ์„ฑ!!

  • ๊ทธ๋Ÿฌ๋‚˜ ์†Œ๋ฆฌ +์˜์ƒ ์œตํ•ฉ ์‹œ ๋‹จ์ผ๋ณด๋‹ค๋Š” ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋์œผ๋‚˜ ๋‹ค๋ฅธ ๊ฐ modality๋ฅผ ๋”ฐ๋กœ ํ•™์Šต์‹œํ‚จ ํ›„์— ๊ฒฐ๊ณผ๋ฅผ ํ•ฉ์น˜๋Š” ๋ฐฉ์‹์˜ SOTA ๋ชจ๋ธ๋ณด๋‹ค๋Š” ์„ฑ๋Šฅ์ด ์•ฝ๊ฐ„ ๋‚ฎ์Œ -> ์ถ”ํ›„ ์—ฐ๊ตฌ ๊ณผ์ œ!

Point Clouds - ModelNet40

3D ์‚ผ๊ฐํ˜• ๋ฉ”์‰ฌ์—์„œ ํŒŒ์ƒ๋œ ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ 40๊ฐœ ๊ฐ์ฒด ์นดํ…Œ๊ณ ๋ฆฌ๋ฅผ ํฌํ•จํ•˜๊ณ  ์žˆ์œผ๋ฉฐ ๊ฐ ๊ฐ์ฒด์˜ ๋ถ„๋ฅ˜๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์ด ๋ชฉํ‘œ์ด๋‹ค. ์ฃผ์–ด์ง„ ์ž…๋ ฅ์€ ์•ฝ 2000๊ฐœ์˜ ์ ์˜ 3D ๊ณต๊ฐ„์—์„œ์˜ ์ขŒํ‘œ.
2๊ฐœ์˜ Cross-attention๊ณผ 6๊ฐœ ๊นŠ์ด์˜ Self-Attentoion์„ ์ด์šฉํ•จ!
![[Pasted image 20250430155136.png]]

Discussion

  • Perceiver๋Š” ์ˆ˜์‹ญ๋งŒ ๊ฐœ ์ด์ƒ์˜ ์ž…๋ ฅ์„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ์ผ๋ฐ˜์ ์ธ ์ธ์ง€ ์•„ํ‚คํ…์ฒ˜๋‹ค.
  • ๊ทธ๋Ÿฌ๋‚˜ ์œ ์—ฐ์„ฑ์ด ํด ์ˆ˜๋ก ๊ณผ์ ํ•ฉ์ด ๋ฐœ์ƒํ•˜๊ธฐ ์‰ฝ๊ธฐ ๋–„๋ฌธ์— ์ด๋ฅผ ์™„ํ™”ํ•˜๊ธฐ ์œ„ํ•œ ๋งŽ์€ ์„ค๊ณ„ ๊ฒฐ์ •์„ ๋‚ด๋ ธ๋‹ค.

[!Question] ์™œ ์œ ์—ฐํ•˜๋ฉด ๊ณผ์ ํ•ฉ ๋ฐœ์ƒ?

  • ๋ชจ๋ธ์˜ ๋ณต์žก์„ฑ ์ฆ๊ฐ€ : ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์˜ ๋…ธ์ด์ฆˆ๋‚˜ ๋น„๊ทœ์น™์ ์ธ ํŒจํ„ด๊นŒ์ง€ ํ•™์Šตํ•ด, ์‹ค์ œ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์ด ๋–จ์–ด์งˆ ์ˆ˜ ์žˆ์Œ
  • ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์˜์กด๋„ ์ฆ๊ฐ€ : ๋ชจ๋ธ์ด ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์˜ ํŠน์„ฑ์„ ์ง€๋‚˜์น˜๊ฒŒ ๋ฐฐ์šฐ๋ฉด ์˜ˆ์ธก ๋‚ฎ์•„์ง
  • ํŠนํžˆ ์ ์€ ๋ฐ์ดํ„ฐ์…‹์—์„œ ๊ทธ๋Ÿผ
profile
์–์–

0๊ฐœ์˜ ๋Œ“๊ธ€