
ex) ์นด๋ฉ๋ผ -> SD์นด๋ -> ์ปดํจํฐ -> _ _ _ _ _ (์ฌ๊ธฐ์ ์ฌ ๊ฒ์?)
GELU function

ReLU์ ๋ค๋ฅด๊ฒ ์๋๋ก ๋ณผ๋กํ ๋ถ๋ถ ์กด์ฌ
๊ธฐ์กด์ ์ถ์ฒ ๋ชจ๋ธ๋ค์ ์ฌ์ฉ์์ ๊ณผ๊ฑฐ ์ํธ์์ฉ ๊ธฐ๋ก์ ๋ํด ๋จ๋ฐฉํฅ ์์ฐจ์ (์ข์ธก -> ์ฐ์ธก)์ผ๋ก ์ธ์ฝ๋ฉํจ. ๊ทธ๋ฌ๋,
(a) ๋จ๋ฐฉํฅ ์ํคํ
์ฒ๋ ์ฌ์ฉ์์ ํ๋ ์ํ์ค์ ๋ด์ฌ๋ ๋ฅ๋ ฅ์ ์ ํํจ.
(b) ์์๊ฐ ์๋ ์ํ์ค๊ฐ ํญ์ ์ค์ฉ์ ์ธ ๊ฒ์ ์๋.
์ด๋ฌํ ์ ํ์ ์ ํด๊ฒฐํ๊ธฐ ์ํด deep bidirectional self-attention์ผ๋ก ์ฌ์ฉ์ ํ๋์ ๋ชจ๋ธ๋งํ๋ BERT4Rec ๋ชจ๋ธ์ ์ ์ํจ. Cloze๋ฅผ ๋์ ํ์ฌ ์ข์ธก, ์ฐ์ธก ๋งฅ๋ฝ์ ๋ชจ๋ ๊ณ ๋ คํ์ฌ sequence์์ ์์๋ก mask๋ item์ ์์ธกํจ.
๋จ๋ฐฉํฅ ๋ชจ๋ธ์ ์ฃผ์ ํ๊ณ: Historical Sequence์์ ๊ฐ ํญ๋ชฉ๋ค์ ์จ๊ฒจ์ง ๋ฅ๋ ฅ๊ณผ ๋งฅ๋ฝ์ ์ ํํจ. ๊ฐ ํญ๋ชฉ์ด ์ด์ ํญ๋ชฉ์์์ ์ ๋ณด๋ง์ ์ธ์ฝ๋ฉํ ์ ์๊ธฐ ๋๋ฌธ์.
=> ์ฌ์ฉ์์ ์ํธ์์ฉ์ ๋ค์ํ ๊ด์ธก ๋ถ๊ฐ๋ฅํ ์ธ๋ถ ์์ธ๋ค์ด ์๊ธฐ ๋๋ฌธ์ ์ค์ ์์ฉ ํ๋ก๊ทธ๋จ์์๋ ์ฌ์ฉ์ ํ๋์ด ์๊ฒฉํ๊ฒ ์์๋ฅผ ๋ฐ๋ฅด์ง ์์ ์ ์์.
๊ทธ๋ฌ๋ ์ต์ก ์์ฐจ์ ์ถ์ฒ๊ณผ ์ผ๊ด์ฑ์ด ์์ => ์ ๋ ฅ sequence ๋์ ํน์ ํ ํฐ 'mask'๋ฅผ ์ถ๊ฐํ์ฌ ์์ธกํด์ผ ํ ํญ๋ชฉ์ ๋ํ๋ด๊ณ , ์ต์ข ์จ๊ฒจ์ง ๋ฒกํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ถ์ฒ์ ์ํํจ.

์์ฐจ์ ์ถ์ฒ์์ interaction history S๊ฐ๊ฐ ์ฃผ์ด์ก์ ๋ ์ฌ์ฉ์ u๊ฐ ์์ดํ v๋ฅผ time step n+1์์ ๋ณผ ํ๋ฅ ์.
BERT4Rec: Bidirectional Encoder Representations from Transformers to sequenction Recommendation

=> self attention mechanism: ์ด๋ค ๊ฑฐ๋ฆฌ์ dependency๋ ์ง์ ์ ์ผ๋ก ์ก์๋ผ ์ ์๋ ๋ฅ๋ ฅ์ ๊ฐ์ง.
+) ๊ธฐ์กด ๋ชจ๋ธ๋ค: CNN์ ์์ฉํ ์ ์๋ ์์ญ์ด ์ ํ์ ์ด๊ณ , self-attetion์ ๋ณ๋ ฌํํ๊ธฐ์ ์ง๊ด์ ์ด์ง ๋ชปํจ.
Input sequence: ๊ธธ์ด t => hidden representation h๋ฅผ ๊ฐ Layer์ ๋ํด ๊ณ์ฐ(Attention function์ด ๋ชจ๋ ํฌ์ง์ ์ ๋ํด ๋์์ ๊ณ์ฐ์ ํ๋ฏ๋ก ๋ชจ๋ h๋ค์ ํ๋์ ํ๋ ฌ๋ก ๋ฌถ์.)
Multi-Head Self-Attention: Representation ์์ ๋ํ์ฌ ๋์ ๊ฑฐ๋ฆฌ์ ๊ด๊ณ ์์ด ์์กด ์ ๋๋ฅผ ํ์ ํ ์ ์์ด ๋ง์ ์์ ์ ํ์ฉ๋จ.
=> ์๋ก ๋ค๋ฅธ representation subspace๋ก๋ถํฐ ๋ค๋ฅธ ํฌ์ง์
์ ์ ๋ณด๋ฅผ jointly attendํ๋ ๊ฒ์ ์ฑ๋ฅ์ด ๋์์ด ๋ฐํ์ ธ ์์. ์ฌ๊ธฐ์ multi-head๋ฅผ ๋์
ํจ.


์์ ๊ตฌํ H ํ๋ ฌ => h subspace => h attention function => output => ํฉ์น ํ์ ๋ค์ ํ๋ฒ project

ํธ๋์คํฌ๋จธ layer Trm์ input sequence์ ์์์ ์๋ฏธ๋ฅผ ํ์ ํ์ง ๋ชปํจ. ๋ฐ๋ผ์ Positional Embedding์ ํ์ฉํ์ฌ input item์ ํด๋น ์ ๋ณด๋ฅผ ํจ๊ป ๋ฃ์.
๊ณ ์ ๋ sinusoid embedding ๋์ ํ์ต ๊ฐ๋ฅํ positional embedding์ ์ฌ์ฉํ์ฌ ์ฑ๋ฅ์ ๋ ๋์.
L๊ฐ์ layer๊ฐ ๊ณ์ธต์ ์ผ๋ก ๋ชจ๋ ์ ๋ณด๋ฅผ ์ layer๋ก๋ถํฐ ์ฃผ๊ณ ๋ฐ์ ์ดํ์, ์ต์ข ์ ์ธ output H^L์ ๊ฐ item์ ๋ํด์ ์ถ๋ ฅํจ.

๊ธฐ์กด Recommendtion ๋ชจ๋ธ๊ณผ์ ๋น๊ต
1) Amazon Beauty
2) Steam
3) MovieLens
1) Hit Ratio
2) Normalized Discounted Cumulative Gain
3) Mean Reciprocal Rank

๋ฏธ๋ ์ฐ๊ตฌ ๋ฐฉํฅ: ์ ํ์ ์นดํ ๊ณ ๋ฆฌ์ ๊ฐ๊ฒฉ, ์ํ์ ์บ์คํธ์ ๊ฐ์ ํ๋ถํ ํญ๋ชฉ ํน์ฑ์ ๋จ์ํ๊ฒ ํญ๋ชฉ ID๋ก ๋ชจ๋ธ๋งํ๋ ๊ฒ์ด ์๋ BERT4Rec์ ํตํฉํ๋ ๊ฒ์ ๋ชฉํ๋กํจ.