'25 ์ํคํ ์ฒ ์คํฐ๋ 5์ฃผ์ฐจ
paper link
[!summary] Abstract
1. ๐ค Perceiver๋ Transformer๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ฉฐ, ๋ค์ํ modality์ ๊ณ ์ฐจ์ ์ ๋ ฅ ์ฒ๋ฆฌ๋ฅผ ์ํด ์ค๊ณ๋์์ต๋๋ค.
2. โ๏ธ ์ด ๋ชจ๋ธ์ ๋น๋์นญ์ ์ธ attention ๋ฉ์ปค๋์ฆ์ ์ฌ์ฉํ์ฌ ์ ๋ ฅ์ ์์ latent bottleneck์ผ๋ก ๋ฐ๋ณต์ ์ผ๋ก ์์ถํ์ฌ ํฐ ์ ๋ ฅ๋ ์ฒ๋ฆฌํ ์ ์์ต๋๋ค.
3. ๐ Perceiver๋ ์ด๋ฏธ์ง, ํฌ์ธํธ ํด๋ผ์ฐ๋, ์ค๋์ค, ๋น๋์ค ๋ฑ ๋ค์ํ modality์์ ํนํ๋ ๋ชจ๋ธ๋ค๊ณผ ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค.
์ด๋ฅผ ์ด์ฉํด ์ด์ฐจ ๋ณต์ก๋๋ฅผ ํด๊ฒฐํ ์ ์๋ค.
Latent Array์ Byte Array๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ๋๋ค.
Latent array์์ query(Q)๋ฅผ ์์ฑํ๊ณ , Byte array์์ Key(K)์ Value(V)๋ฅผ ์์ฑํ๋ค. ๊ทธ๋ฐ ๋ค์, Latent array์ ๊ฐ ๋ฒกํฐ๊ฐ Byte array ์ ์ฒด์ ๋ํด ์ดํ
์
์ ์ํํด์ ์ ๋ณด๋ฅผ ๊ฐ์ง๊ณ ์จ๋ค.
-> ์ ์ฌ ๋ฒกํฐ๋ค์ด ์
๋ ฅ ๋ฐ์ดํฐ์์ ์ด๋ค ์ ๋ณด์ ์ฃผ๋ชฉํด์ผ ํ ์ง๋ฅผ ํ์ต
์ถ๋ ฅ : Latent array์ ๋์ผํ ํฌ๊ธฐ(NXD)์ ์
๋ฐ์ดํธ๋ ์ ์ฌ ๋ฐฐ์ด์ ์ถ๋ ฅํ๋ค.
= ํฐ Byte array์ ์ ๋ณด๊ฐ ์์ latent array๋ก ์์ถ/์์ฝ๋๋ ๊ฒ
๊ณ์ฐ ๋ณต์ก๋๋ ๋๋ต O(N*M) : N์ด ์๊ธฐ ๋๋ฌธ์ Byte Array ์ ์ฒด์ ๋ํด์ ์ ํ ์ดํ ์ ์ ์ํํ๋ ๊ฒ๋ณด๋ค ํจ์ฌ ํจ์จ์ ์!!
์ฌ๊ธฐ์ ์ ์ฌ ๋ฐฐ์ด์ ํฌ๊ธฐ๋ ์ผ๋ฐ์ ์ผ๋ก ์์ผ๋ฉฐ ํ์ดํผํ๋ผ๋ฏธํฐ๋ก ์ ํจ!
[!note] Taming quadratic complexity with cross-attention
- attention์ ์ค์ฌ์ผ๋ก ์ํคํ ์ฒ๋ฅผ ๊ตฌ์ฑํ๋ ์ด์ ๋ attention์ด ์ผ๋ฐ์ ์ผ๋ก ์ ์ฉ ๊ฐ๋ฅํ๊ณ ์ค์ ๋ก ๊ฐ๋ ฅํ๊ธฐ ๋๋ฌธ!
์ ๋ ฅ : ์ด์ ย Cross Attentionย ๋ธ๋ก์ ์ถ๋ ฅ (N x Dย ํฌ๊ธฐ์ ์ ์ฌ ๋ฐฐ์ด)์ ๋ฐ๋๋ค.
์ด์ step์์ Byte array์์ ๊ด๋ จ ์ ๋ณด๋ฅด ๋์ด์ Latent array ๋ฒกํฐ์ ๊ฐ ๋ฒกํฐ๋ฅผ ์
๋ฐ์ดํธํจ
= ์ ์ฌ ๋ฒกํฐ์๋ ์
๋ ฅ ๋ฐ์ดํฐ์ ํน์ ๋ถ๋ถ์ด๋ ์ธก๋ฉด์ ๋ํ ์ ๋ณด๊ฐ ์์
= BUT! ์ด ์ ๋ณด๋ค์ ์์ง ๊ฐ๋ณ์ ์ผ๋ก ์กด์ฌํ๋ฉฐ, ์๋ก ์ฐ๊ฒฐ๋๊ฑฐ๋ ์ข
ํฉ์ ์ผ๋ก ์ฒ๋ฆฌ๋์ง ์์
Latent Transformer์ Self-Attention์ Feed-Forward Network๋ก ๊ตฌ์ฑ๋จ.
= Self-Attention์ ํตํด ๊ฐ ์ ์ฌ ๋ฒกํฐ๋ ๋ค๋ฅธ ์ ์ฌ ๋ฒกํฐ๋ค์ ์ ๋ณด๋ฅผ ์ฐธ๊ณ ํ์ฌ ์์ ์ ํํ์ ์
๋ฐ์ดํธ
์ด๋ latent transformer๋ GPT-2 ์ํคํ ์ฒ๋ฅผ ์ฌ์ฉํจ.
์ด ๋ถ๋ถ์ ์ ๋ ฅ ํฌ๊ธฐ์๋ ๋ฌด๊ดํ๊ธฐ ๋๋ฌธ์ ์์ฃผ ๊น๊ฒ ์์๋ ๋ถ๋ด์ด ์ ๋ค.
Cross-attention์ ์ถ๋ ฅ์ Latent ๋ฐฐ์ด ํํ๋ฅผ ๊ฐ์ง๋ฏ๋ก ์ด๋ฅผ ํตํด bottlenexk(๋ณ๋ชฉ)์ด ์๊ธด๋ค.
์ฐ๋ฆฌ๋ ์ด bottleneck์ ํตํด Latent ๊ณต๊ฐ์์ ๊น์ Transformer๋ฅผ ๋ง๋ค ์ ์์
= ์ด ๊ฒฝ์ฐ ๋ณต์ก๋๋ O(N^2)
Perceiver๋ ์ด๋ ๊ฒ ํด์ ์
๋ ฅ ํฌ๊ธฐ(M)์ ๋คํธ์ํฌ ๊น์ด(L)์ ๋ถ๋ฆฌํ ์ ์์
= ==์ผ๋ฐ Transforemer๊ฐ O(L x M^2) ์ ๋ณต์ก๋๋ฅผ ๊ฐ์ง๋ค๋ฉด Perceiver๋ O(MรN + LรNยฒ)==
์ด ์คํ์์๋ Latent Transformer ์์ด ์ค์ง Cross-Attention ๋ง ์์์ ๋ชจ๋ธ์ ๊ตฌ์ฑํ ๊ฒ์ด๋ค. ๋ํ, ๊ฐ Cross-Attention ๋ ์ด์ด๋ ์๋ก ๊ฐ์ค์น๋ฅผ ๊ณต์ ํ์ง ์๋๋ค!
์ด๋ ๋ ์ด์ด ์๊ฐ ๋์ด๋จ์ ๋ฐ๋ผ์ ๋ชจ๋ธ์ ์ฐ์๋์ด ๊ธ๊ฒฉํ๊ฒ ์ฆ๊ฐํ๋ค๊ฐ, 12๊ฐ์์๋ ๊ฒฐ๊ตญ ๋ฉ๋ชจ๋ฆฌ ๋ถ์กฑ(OOM : Out Of Memory) ๋ฌธ์ ๊ฐ ๋ฐ์ํด ๊ฒฐ๊ณผ๋ฅผ ์ป์ง ๋ชปํ๋ค.
= Latent Transformer๊ฐ ํ์ํจ!
[!note] Feed Forward Network
- Self-attention์ด ์ ๋ณด์ ๊ด๊ณ์ ํผํฉ์ ๋ด๋นํ๋ค๋ฉด, FFN์ ๊ฐ๋ณ ์ ๋ณด์ ๋ด์ฉ์ ์ฌํํ๊ณ ๋ณํํ๋ ์ญํ ์ ํ๋ค!
- ์ฌ๋ฌ ์ธต์ ์๋ ๋ฐฉ์์ผ๋ก ์ค๊ณ๋๋ฉฐ ๊ฐ ์ธต์ ์ด์ ์ธต์ ์ถ๋ ฅ์ ๋ฐ์๋ค์ฌ ๋ค์ ์ธต์ ์ ๋ฌํจ
- ํ์ฑํ ํจ์(ex. RELU, Sigmoid, Tanh) ๋ฑ์ ์ฌ์ฉํด์ ๋น์ ํ ๋ณํ ์ํ -> ๋ณต์กํ ํจ์๋ ๊ด๊ณ๋ฅผ ๋ชจ๋ธ๋งํ ์ ์์ (better than ์ ํ ํ๊ท)
์ด ํ๋ Cross-Attention์ ์ฌ์ด์, ๊ทธ๋ฆฌ๊ณ ์์์ ์ ๋ชฐ์์ ๋ฐฐ์นํ์ ๋ ๊ทธ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค.
์ด๋ Cross-Attention ์๋ฅผ ๋๋ฆด ์๋ก at start ๋ฐฉ์์ ์ ์ ์ฑ๋ฅ์ด ์ ํ๋๋ ๊ฒ์ ๋ณผ ์ ์์!
= ์ ์ง์ ์ ๋ณด ์ฒ๋ฆฌ๊ฐ ์ค์ํ๋ค! = ์
๋ ฅ์ ํ๋ฒ์ ์ฒ๋ฆฌํ๋ ๊ฒ๋ณด๋ค ์
๋ ฅ์์ ์ ๋ณด๋ฅผ ๊ฐ์ ธ์ค๊ณ , ๊ทธ ์ ๋ณด๋ฅผ ์ ์ฌ ๊ณต๊ฐ์์ ์ฒ๋ฆฌํ ๋ค์(Latent Transformer), ๋ค์ ๋ ์ฒ๋ฆฌ๋ ์ ๋ณด๋ฅผ ๋ฐํ์ผ๋ก ์
๋ ฅ์์ ํ์ํ ์ ๋ณด๋ฅผ ๊ฐ์ ธ์ค๋(๋ค์ Cross Attention) ๊ณผ์ ์ด ๋ ํจ๊ณผ์ ์!
์ต์ข ์ ์ฌ ๋ฐฐ์ด์ ๋ชจ๋ ๋ฒกํฐ(N๊ฐ)๋ฅผ ํ๊ท ๋ด์ด ํ๋์ ์์ฝ ๋ฒกํฐ(D์ฐจ์)์ ๋ง๋ ๋ค.
์ด ์ต์ข ์์ฝ ๋ฒกํฐ(D์ฐจ์)๋ฅผ ์ ํ ๋ ๋ฆฌ์ด์ ํต๊ณผ์์ผ ๋ถ๋ฅ๋ ํ๊ท ๋ฑ ํน์ ์์ ์ ๋ํ ์ต์ข ์์ธก ๊ฐ์ ์์ฑํจ.
Attention์ ๊ณต๊ฐ ์ ๋ณด๊ฐ ์๊ธฐ ๋๋ฌธ์ ์์น ์ธ์ฝ๋ฉ์ ์ค์ผ ํ๋ค!
Positional Encoding์ ์ฃผ๋ก ์ ๋ ฅ ๋ฐ์ดํฐ(byte array)์ ํ ๋ฒ, ๊ทธ๋ฆฌ๊ณ ์ฒซ ๋ฒ์งธ cross-attention ๋ค์ด๊ฐ๊ธฐ ์ ์ ํ ๋ฒ ์ ์ฉ๋๋ค.
ImageNet ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ์ฌ ๋จ์ผ ์ด๋ฏธ์ง ๋ถ๋ฅ๋ฅผ ํ๊ณ Top-1 ๊ฒ์ฆ ์ ํ๋๋ฅผ ์ด์ฉํด์ ํ๊ฐ๋ฅผ ์งํํ์๋ค.
ImageNet ์คํ์์ ์์น ์ธ์ฝ๋ฉ์ ์ด๋ป๊ฒ ์ค์ ํ์๊น?
ImageNet์ ์ด๋ฏธ์ง๋ ํฌ๊ธฐ๊ฐ ๋ค์ํ๊ธฐ ๋๋ฌธ์ ๋ณดํต ๋ชจ๋ธ์ ๋ฃ๊ธฐ ์ ์ 224x224 ํฝ์ ํฌ๊ธฐ๋ก ์ด๋ฏธ์ง๋ฅผ ์๋ผ๋ด๊ฑฐ๋ ํฌ๊ธฐ๋ฅผ ์กฐ์ ํ๋ค.
์ฌ๊ธฐ์ ์ ์๋ณธ ์ด๋ฏธ์ง ์ ์ฒด๊ฐ ์๋๋ผ ==ํฌ๋กญ๋ ์ด๋ฏธ์ง์ ์ขํ==๋ฅผ ์ฐ๋ ๊ฑธ๊น?
๋ง์ฝ ์ด๋ค ํฝ์ ์ด๋ ์ ๋์ ์ธ ์์น๋ฅผ ๊ธฐ์ค์ผ๋ก ๊ณ์ฐ๋๋ค๊ณ ํ๋ค๋ฉด, ํน์ ์์น์ ์๋ ํฝ์ ์ RGB ๊ฐ์ด ํน์ ํจํด์ด๋ฉด ์ด๊ฑด ๊ฐ์์ง์ผ ํ๋ฅ ์ด ๋๊ตฌ๋! ๋ผ๊ณ ์๊ธฐํด๋ฒ๋ ค ๊ณผ์ ํฉ์ด ์ผ์ด๋ ์ ์๋ค.
Crop ์ขํ๋ฅผ ์ฌ์ฉํ๋ฉด ์์น์ ๊ฐ๋ก์ธ๋ก ๋น์จ ๋ชจ๋์์ ๋ฐ์ดํฐ ์ฆ๊ฐ ํจ๊ณผ๊ฐ ๋ฐ์ํ๊ธฐ ๋๋ฌธ์ RGB ๊ฐ๊ณผ ์์น ํน์ง ๊ฐ์ ๊ณ ์ ๋ ์๊ด๊ด๊ณ๋ฅผ ๊นจํธ๋ฆฐ๋ค!
์ขํ๊ฐ์ ๋ฒ์๋ฅผ ์ผ์ ํ๊ฒ ๋ง์ถ๋ฉด ๋ชจ๋ธ์ด ํ์ตํ๊ธฐ ๋ ์ฌ์์ง๊ธฐ ๋๋ฌธ
์ด๋ ํธ๋ฆฌ์ ํน์ง(Fourier Features)์ ์ฌ์ฉํ๋ค.
ํธ๋ฆฌ์ ํน์ง์ด๋? ๊ฐ๋จํ ๋งํด์ ์ฌ๋ฌ ๊ฐ์ง ๋ค๋ฅธ ์ฃผํ์๋ฅผ ๊ฐ์ง cos์ sin์ ์ฌ์ฉํ๋ ๊ฒ!
4. ์ธ์ฝ๋ฉ ๋ฒกํฐ์ ํฝ์ ์ ๋ณด ํฉ์น๊ธฐ
์ด ์์น ์ธ์ฝ๋ฉ ๋ฒกํฐ๋ฅผ ํด๋น ํฝ์ ์ RGB ์ ๋ณด์ ํฉ์ณ์ ์ต์ข ์ ๋ ฅ ๋ฒกํฐ๋ฅผ ๋ง๋ ๋ค!
ํ์ต์ 120 ์ํฌํฌ, ์ด๊ธฐ ํ์ต๋ฅ 0.004
Cross-attention์ ์ด 8๋ฒ ์ํํ์์๋ฉฐ ์ดํ์๋ 6๊ฐ์ ๋ธ๋ก์ผ๋ก ๊ตฌ์ฑ๋ Latent Transformer๋ฅผ ๊ตฌ์ฑํ์๋ค.
= Cross-Att -> 6 Latent Blocks -> Cross-Att -> 6 Latent Blocks ...ย 8๋ฒ ๋ฐ๋ณต)
==Standard ImageNet ๊ฒฐ๊ณผ==
์ต๊ณ ์ฑ๋ฅ์ ๋ณด์ฌ์ค
==Permuted ImageNet ๊ฒฐ๊ณผ==
ํฝ์
์์๋ฅผ ์์๋ก ์์! ๊ทธ๋ฌ๋ฉด 2D ๊ฒฉ์ ๊ตฌ์กฐ์์ ๋น์ฐํ๋ ์ด์ ๊ด๊ณ๊ฐ ๊นจ์ ธ๋ฒ๋ฆฐ๋ค.
Resnet์ด๋ Vit ์ ๋นํด์ ์๋ณธ ๋ฐ์ดํฐ์ ์์๋ฅผ ๋ฌด์์๋ก ๋ฐ๋ ๋ฐ์ดํฐ์์ ๋์ ์ฑ๋ฅ์ ๋ณด์ด๊ณ ์์!
= ์์น ์ธ์ฝ๋ฉ์ ์ญํ ์ฌํ์ธ
= ์ ์ด์ ์
๋ ฅ์ 1D ์ํ์ค๋ ์งํฉ์ผ๋ก ๊ฐ์ฃผํ๊ณ ๊ด๊ณ๋ ์ดํ
์
๋ฉ์ปค๋์ฆ๊ณผ ๋ช
์์ ์์น ์ธ์ฝ๋ฉ์ ํตํด ํ์ตํ๋ฏ๋ก ํฌ๊ฒ ์๊ด์ด ์๋ค!
= ํน์ ํ ๊ณต๊ฐ๊ตฌ์กฐ(ex.2D)์ ๋ํ ๊ฐ์ ์ด ๊ฑฐ์ ์๋ ๋งค์ฐ ์ผ๋ฐ์ ์ธ(general) ์ํคํ
์ฒ๋ค!!
(๊ฒฉ์๊ตฌ์กฐ ์๋์ด๋ ๋ผ!)
==Attention Map==
์ฒซ ๋ฒ์งธ ๊ทธ๋ฆผ์ ์๋ณธ
ํ๋ ํ
๋๋ฆฌ๋ ์ด๋์ ์ง์คํ ๊ฒ์ธ์ง ํต์ฌ ๋์ ์ฐพ๊ธฐ
3~4๋ฒ์งธ ๊ทธ๋ฆผ์ ๊ธฐ์ ์ ์ผ๋ก ์ฌ์ง์ ๋ฏ์ด๋ณด๋ ๊ฒ.
์ฌ์ฉํ ๋ฐ์ดํฐ์
์ AudioSet(170๊ฐ์ 10์ด์ง๋ฆฌ ๋น๋์ค, 527๊ฐ ์๋ฆฌ ํด๋์ค)
ํ๊ฐ ์งํ๋ mAP(mean Average Precision)
์
๋ ฅ ์ข
๋ฅ๋ 1) ์๋ฆฌ๋ง ์
๋ ฅ 2) ์์๋ง ์
๋ ฅ 3) ์๋ฆฌ+์์ ๋์ ์
๋ ฅ
==๋ชจ๋ธ ๊ตฌ์กฐ==
AudioSet์ ๋ฐ์ดํฐ ๊ท๋ชจ๊ฐ ํฌ๋ฏ๋ก ๋ ๋น ๋ฅธ ๋ฒ์ ์ Perceiver๋ฅผ ์ฌ์ฉํจ
Cross-attention : 8๋ฒ -> 2๋ฒ
Latent Transformer ๊น์ด ์ฆ๊ฐ : ๋ธ๋ก๋น 6๊ฐ -> 8๊ฐ
์๋ฆฌ๋ง ์ ๋ ฅํ์ ๊ฒฝ์ฐ๋ ๋น๋์ค๋ง ์ ๋ ฅํ์ ๊ฒฝ์ฐ SOTA ๋ชจ๋ธ์ ๊ทผ์ ํจ
ํนํ Raw audio์์๋ ์ข์ ์ฑ๋ฅ์ ๋ธ๋ค!
= ์ ํต์ ์ผ๋ก ์ค๋์ค๋ฅผ ๋ฅ๋ฌ๋ ๋ชจ๋ธ๋ก ์ฒ๋ฆฌํ ๋๋ ์์ ์ค๋์ค ํํ์ ๊ทธ๋๋ก ์ฌ์ฉํ๊ธฐ ๋ณด๋ค ์คํํธ๋ก๊ทธ๋จ ๊ฐ์ ํํ๋ก ๋ณํํ๋ ๊ฒ์ด ์ผ๋ฐ์ ์ด์์!
= ์คํํธ๋ก๊ทธ๋จ ๋ณํ ๊ณผ์ ์์ ์์ค๋ ์ ์๋ ๋ชจ๋ ์ ์ฌ์ ์ธ ์ ๋ณด๋ฅผ ๋ชจ๋ธ์ด ํ์ฉํ ์ ์๋ ๊ฐ๋ฅ์ฑ!!
๊ทธ๋ฌ๋ ์๋ฆฌ +์์ ์ตํฉ ์ ๋จ์ผ๋ณด๋ค๋ ์ฑ๋ฅ์ด ํฅ์๋์ผ๋ ๋ค๋ฅธ ๊ฐ modality๋ฅผ ๋ฐ๋ก ํ์ต์ํจ ํ์ ๊ฒฐ๊ณผ๋ฅผ ํฉ์น๋ ๋ฐฉ์์ SOTA ๋ชจ๋ธ๋ณด๋ค๋ ์ฑ๋ฅ์ด ์ฝ๊ฐ ๋ฎ์ -> ์ถํ ์ฐ๊ตฌ ๊ณผ์ !
3D ์ผ๊ฐํ ๋ฉ์ฌ์์ ํ์๋ ํฌ์ธํธ ํด๋ผ์ฐ๋ ๋ฐ์ดํฐ์
์ผ๋ก 40๊ฐ ๊ฐ์ฒด ์นดํ
๊ณ ๋ฆฌ๋ฅผ ํฌํจํ๊ณ ์์ผ๋ฉฐ ๊ฐ ๊ฐ์ฒด์ ๋ถ๋ฅ๋ฅผ ์์ธกํ๋ ๊ฒ์ด ๋ชฉํ์ด๋ค. ์ฃผ์ด์ง ์
๋ ฅ์ ์ฝ 2000๊ฐ์ ์ ์ 3D ๊ณต๊ฐ์์์ ์ขํ.
2๊ฐ์ Cross-attention๊ณผ 6๊ฐ ๊น์ด์ Self-Attentoion์ ์ด์ฉํจ!
![[Pasted image 20250430155136.png]]
[!Question] ์ ์ ์ฐํ๋ฉด ๊ณผ์ ํฉ ๋ฐ์?
- ๋ชจ๋ธ์ ๋ณต์ก์ฑ ์ฆ๊ฐ : ํ๋ จ ๋ฐ์ดํฐ์ ๋ ธ์ด์ฆ๋ ๋น๊ท์น์ ์ธ ํจํด๊น์ง ํ์ตํด, ์ค์ ๋ฐ์ดํฐ์ ๋ํ ์ผ๋ฐํ ์ฑ๋ฅ์ด ๋จ์ด์ง ์ ์์
- ํ๋ จ ๋ฐ์ดํฐ์ ๋ํ ์์กด๋ ์ฆ๊ฐ : ๋ชจ๋ธ์ด ํ๋ จ ๋ฐ์ดํฐ์ ํน์ฑ์ ์ง๋์น๊ฒ ๋ฐฐ์ฐ๋ฉด ์์ธก ๋ฎ์์ง
- ํนํ ์ ์ ๋ฐ์ดํฐ์ ์์ ๊ทธ๋ผ