[Paper Review] A Self-Attentive model for Knowledge Tracing (SAKT, Jul 2019)

์‹  ์˜ยท2024๋…„ 10์›” 23์ผ

EdTech

๋ชฉ๋ก ๋ณด๊ธฐ
8/8
post-thumbnail

๐Ÿ“ A Self-Attentive model for Knowledge Tracing

๐Ÿ“ข ์œ„ ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ์ž…๋‹ˆ๋‹ค. ๋‚ด์šฉ์„ ์œ ์ง€ํ•˜๋˜, ์ถ”๊ฐ€์ ์œผ๋กœ ํ•„์š”ํ•œ ๋‚ด์šฉ์€ ์ถ”๊ฐ€ํ•˜๊ณ  ์‹œ๊ฐํ™” ์ž๋ฃŒ๋ฅผ ๋งŒ๋“ค์–ด ์žฌ๊ตฌ์„ฑํ•˜๋ฉฐ ์ •๋ฆฌํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๊ฐœ์ธ์ ์œผ๋กœ ์ฝ์œผ๋ฉฐ ์ดํ•ด๊ฐ€ ์–ด๋ ค์› ๋˜ ๋ถ€๋ถ„์„ ๋ชจ๋‘ ์ •๋ฆฌํ•ด ๋‘” ๊ธ€์ด๊ธฐ์— ๋ชฉ์ ์— ๋”ฐ๋ผ ๊ตต์งํ•œ ํ๋ฆ„๋งŒ ์ดํ•ดํ•˜๊ณ  ๊ฐ€์…”๋„ ์ถฉ๋ถ„ํ•ฉ๋‹ˆ๋‹ค. ๋…ผ์˜ ๋ฐ ํ”ผ๋“œ๋ฐฑ์€ ์–ธ์ œ๋‚˜ ํ™˜์˜์ž…๋‹ˆ๋‹ค๐Ÿ˜Š

โœ… Summary

๐Ÿ“Œ Knowledge Tracing

์ง€์‹ ์ถ”์ (knowledge tracing)์€ ํ•™์ƒ์ด ํ•™์Šต ํ™œ๋™์„ ์ˆ˜ํ–‰ํ•  ๋•Œ ๊ฐ ์ง€์‹ ๊ฐœ๋…(KC)์— ๋Œ€ํ•œ ํ•™์ƒ์˜ ์ˆ™๋ จ๋„๋ฅผ ๋ชจ๋ธ๋งํ•˜๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ํ•™์ƒ์˜ ํ•™์Šต ํ™œ๋™ ์„ฑ๊ณผ๋ฅผ ์ถ”์ •ํ•˜๊ณ , ๊ฐœ์ธ ๋งž์ถคํ˜• ํ•™์Šต์„ ์ œ๊ณตํ•˜๋Š” ๋ฐ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.

์ตœ๊ทผ์—๋Š” DKT์™€ DKVMN ๊ฐ™์€ ์ˆœํ™˜ ์‹ ๊ฒฝ๋ง(RNN) ๊ธฐ๋ฐ˜ ๋ชจ๋ธ๋“ค์ด ๋ณต์žกํ•œ ํ•™์Šต ํŒจํ„ด์„ ํฌ์ฐฉํ•˜๋Š” ๋Šฅ๋ ฅ ๋•๋ถ„์— ์ „ํ†ต์ ์ธ ๋ฐฉ๋ฒ•๋ณด๋‹ค ๋›ฐ์–ด๋‚œ ์„ฑ๊ณผ๋ฅผ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ DKT(Deep Knowledge Tracing)๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ ๋ฌธ์ œ๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, DKVMN(Dynamic Key-Value Memory Networks for Knowledge Tracing)์€ KC ํ‘œํ˜„ ํ–‰๋ ฌ(ํ‚ค)๊ณผ ์ง€์‹ ์ƒํƒœ ํ‘œํ˜„ ํ–‰๋ ฌ(๊ฐ’)์„ ์œ ์ง€ํ•˜์—ฌ DKT๋ณด๋‹ค ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์•„์กŒ์œผ๋‚˜, DKT ๋ชจ๋ธ๊ณผ ๊ฐ™์€ RNN ๊ธฐ๋ฐ˜์ด๊ธฐ ๋•Œ๋ฌธ์— ํ•™์ƒ๋“ค์ด ๋น„๊ต์  ์ ์€ ์ˆ˜์˜ KC์™€ ์ƒํ˜ธ์ž‘์šฉํ•˜๋Š” ํ˜„์‹ค ๋ฐ์ดํ„ฐ์—์„œ ๋ฐœ์ƒํ•˜๋Š” ๋ฐ์ดํ„ฐ ํฌ์†Œ์„ฑ ๋ฌธ์ œ๋ฅผ ์ž˜ ์ฒ˜๋ฆฌํ•˜์ง€ ๋ชปํ•˜๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ“Œ Solution

์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ํ•™์ƒ์˜ ๋ฌธ์ œ ํ’€์ด ์ด๋ ฅ ์ค‘ ํ˜„์žฌ ํ‘ธ๋Š” ๋ฌธ์ œ์˜ KC์™€ ๊ด€๋ จ ์žˆ๋Š” KC๋“ค์„ ์‹๋ณ„ํ•˜๊ณ , ๋น„๊ต์  ์ ์€ ์ˆ˜์˜ KC์— ๊ธฐ๋ฐ˜ํ•ด ํ•™์ƒ์˜ ์ˆ™๋ จ๋„๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ์ž๊ธฐ ์ง‘์ค‘ ์ง€์‹ ์ถ”์ (Self Attentive Knowledge Tracing, SAKT) ๋ฐฉ๋ฒ•์ด ์ œ์•ˆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. SAKT๋Š” ๋ชจ๋“  ๋ฌธ์ œ ํ’€์ด ์ด๋ ฅ์„ ์‚ฌ์šฉํ•˜๋Š” ๋Œ€์‹ , ํ•ด๋‹น KC์™€ ๊ด€๋ จ๋œ ์ฃผ์š” ์ด๋ ฅ์„ ์„ ํƒํ•˜์—ฌ ๋ฐ์ดํ„ฐ ํฌ์†Œ์„ฑ ๋ฌธ์ œ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค.

SAKT๋Š” RNN ๋Œ€์‹  self-attention ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํ™œ์šฉํ•˜๋Š” ํŠธ๋žœ์Šคํฌ๋จธ๋กœ ๊ฐ KC ๊ฐ„์˜ ๊ด€๋ จ์„ฑ์„ ํŒŒ์•…ํ•˜์—ฌ ์˜ˆ์ธก ์ •ํ™•๋„๋ฅผ ๋†’์ž…๋‹ˆ๋‹ค. ๋‹ค์–‘ํ•œ ์‹ค์ œ ๋ฐ์ดํ„ฐ์…‹์—์„œ ์‹คํ—˜ํ•œ ๊ฒฐ๊ณผ, SAKT๋Š” ๊ธฐ์กด์˜ DKT ๋ฐ DKVMN ๋ชจ๋ธ๋ณด๋‹ค ๋” ๋‚˜์€ ์„ฑ๊ณผ๋ฅผ ๋ณด์˜€์œผ๋ฉฐ, ํ‰๊ท  AUC์—์„œ 4.43%์˜ ํ–ฅ์ƒ์„ ๋‹ฌ์„ฑํ–ˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ“ข ๋ณธ ํฌ์ŠคํŒ…์—์„œ ์‚ฌ์šฉํ•  ์šฉ์–ด๋ฅผ ์•ฝ์†ํ•˜๊ณ  ๋„˜์–ด๊ฐ€๊ฒ ์Šต๋‹ˆ๋‹ค.
์ƒํ˜ธ์ž‘์šฉ(interaction) = ๋ฌธ์ œ ํ’€์ด ์ด๋ ฅ(๋ฌธ์ œ ๋ฒˆํ˜ธ์™€ ์ •์˜ค๋‹ต ์—ฌ๋ถ€)
exercise = ๋ฌธ์ œ

โœ… PROPOSED METHOD

๐Ÿ“ข ์ด์ œ ๋…ผ๋ฌธ์—์„œ ์ œ์•ˆํ•œ ๋ฐฉ๋ฒ•์„ ๊ธด ํ˜ธํก์œผ๋กœ ์ž์„ธํžˆ ์‚ดํŽด๋ณผ ์˜ˆ์ •์ž…๋‹ˆ๋‹ค. ์ œ์•ˆํ•œ ๋ฐฉ๋ฒ•์„ ์ž์„ธํžˆ ๋“ค์—ฌ๋‹ค ๋ณด๊ธฐ ์ „์— ์ตœ๋Œ€ํ•œ ์ดํ•ดํ•˜๋Š” ๋ฐ ๊ฒช๋Š” ์–ด๋ ค์›€์„ ์ค„์ด๊ธฐ ์œ„ํ•œ ๋‘ ๊ฐ€์ง€ ์‚ฌ์ „ ์ž‘์—…์„ ๊ฑฐ์น˜๊ณ  ๊ฐ€๊ฒ ์Šต๋‹ˆ๋‹ค. ์„ธ๋ถ€ ๋‚ด์šฉ์„ ๋“ค์—ฌ๋‹ค ๋ณผ ๋•Œ ์•„๋ž˜ ๋‘ ๋‚ด์šฉ์„ ํ•จ๊ป˜ ๋„์›Œ๋†“๊ณ  ๊ฐ™์ด ๋ณด์‹œ๊ธธ ๊ถŒ์žฅํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ“Œ ์‚ฌ์ „ ์ž‘์—… 1 : ๊ธฐํ˜ธ ์ •์˜

๋จผ์ € ๊ธฐํ˜ธ ์ •์˜๋ฅผ ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค. ๋ฏธ๋ฆฌ ์ธ์ง€ํ•˜์ง€ ์•Š๊ณ  ๋“ค์–ด๊ฐ€๋ฉด ๋ณต์žกํ•œ ๋ชจ๋ธ ๊ตฌ์กฐ์— ํ—ท๊ฐˆ๋ฆฌ๋Š” ๊ธฐํ˜ธ๊นŒ์ง€ ์–ด๋ ต์Šต๋‹ˆ๋‹ค.

๊ธฐํ˜ธ์„ค๋ช…
NNํ•™์ƒ์˜ ์ด ์ˆ˜
EE๋ฌธ์ œ์˜ ์ด ์ˆ˜
XXํ•™์ƒ์˜ ์ƒํ˜ธ์ž‘์šฉ ์‹œํ€€์Šค: (x1,x2,...,xtx_1, x_2, . . . , x_t)
xix_iํ•™์ƒ์˜ i๋ฒˆ์งธ ๋ฌธ์ œ-๋‹ต ์Œ
nn์‹œํ€€์Šค์˜ ์ตœ๋Œ€ ๊ธธ์ด
dd์ž ์žฌ ๋ฒกํ„ฐ ์ฐจ์› ์ˆ˜
eeํ•™์ƒ์ด ํ•ด๊ฒฐํ•œ ๋ฌธ์ œ์˜ ์‹œํ€€์Šค
MM์ƒํ˜ธ์ž‘์šฉ ์ž„๋ฒ ๋”ฉ ๋งคํŠธ๋ฆญ์Šค
PP์œ„์น˜ ์ž„๋ฒ ๋”ฉ ๋งคํŠธ๋ฆญ์Šค
EE๋ฌธ์ œ ์กฐํšŒ ๋งคํŠธ๋ฆญ์Šค
M^\hat{M}๊ณผ๊ฑฐ ์ƒํ˜ธ์ž‘์šฉ ์ž„๋ฒ ๋”ฉ
E^\hat{E}๋ฌธ์ œ ์ž„๋ฒ ๋”ฉ

๐Ÿ“Œ ์‚ฌ์ „ ์ž‘์—… 2 : ๋ชจ๋ธ ์ „์ฒด ๊ตฌ์กฐ๋„

๋‹ค์Œ์œผ๋กœ ๋ณต์žกํ•œ ๊ตฌ์กฐ๋ฅผ ๋ฏธ๋ฆฌ ์ „์ฒด ๊ตฌ์กฐ๋„๋ฅผ ํ•œ ๋ฒˆ ๋ณด๊ณ  ๋„˜์–ด๊ฐ€๊ฒ ์Šต๋‹ˆ๋‹ค. ์•„๋ž˜ ์„ธ๋ถ€ ๋‚ด์šฉ์„ ํ™•์ธํ•˜๋‹ค๊ฐ€ ํ—ท๊ฐˆ๋ฆด ๋•Œ๋„ ํ•œ ๋ฒˆ์”ฉ ํ™•์ธํ•˜๋ฉด ํ๋ฆ„์„ ํ™•์ธํ•˜๊ธฐ์— ์ข‹์Šต๋‹ˆ๋‹ค.

SAKT
โ”œโ”€โ”€ Input Layer
โ”‚   โ””โ”€โ”€ Response Sequence y
โ”‚       โ””โ”€โ”€ Transformed Sequence s
โ”œโ”€โ”€ Embedding Layers
โ”‚   โ”œโ”€โ”€ Interaction Embedding Layer (M)
โ”‚     โ””โ”€โ”€ Positional Embedding Layer (P)
โ”‚   โ”œโ”€โ”€ Exercise Embedding Layer (E)
โ”œโ”€โ”€ Self-Attention Layer
โ”‚   โ”œโ”€โ”€ Scaled Dot-Product Attention
โ”‚   โ”œโ”€โ”€ Multiple Heads
โ”‚   โ”œโ”€โ”€ Residual Connections
โ”‚   โ””โ”€โ”€ Layer Normalization
โ”œโ”€โ”€ Feed Forward Layer
โ”‚   โ”œโ”€โ”€ Feed Forward Network
โ”‚   โ”œโ”€โ”€ Residual Connections
โ”‚   โ””โ”€โ”€ Layer Normalization
โ””โ”€โ”€ Output Layer
    โ”œโ”€โ”€ Final Output (p_t)
    โ””โ”€โ”€ Loss Calculation (L)

๐Ÿ“ข ์ด์ œ ๋…ผ๋ฌธ์—์„œ ๊ธฐ์ˆ ํ•œ ์ˆœ์„œ๋ฅผ ๋”ฐ๋ผ๊ฐ€๋ฉฐ ์ œ์•ˆํ•œ ๋ฐฉ๋ฒ•์„ ํ†บ์•„๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

๐Ÿ“Œ ์ˆœ์ฐจ์  ๋ชจ๋ธ๋ง (Sequencial Modeling Problem)

์ˆœ์ฐจ์  ๋ชจ๋ธ๋ง(sequential modeling)์€ ์ด์ „์— ์ผ์–ด๋‚œ ์‚ฌ๊ฑด๋“ค์ด ๋‹ค์Œ์— ์ผ์–ด๋‚  ์‚ฌ๊ฑด์— ์˜ํ–ฅ์„ ๋ฏธ์นœ๋‹ค๋Š” ๊ฐ€์ •์„ ๋ฐ”ํƒ•์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ์ง€์‹ ์ถ”์ ์˜ ๊ฒฝ์šฐ์—๋Š” ํ•™์ƒ์ด ํ‘ผ ๋ฌธ์ œ์™€ ๊ทธ์— ๋Œ€ํ•œ ๋ฐ˜์‘(์ •๋‹ต ์—ฌ๋ถ€)์ด ๋‹ค์Œ ๋ฌธ์ œ๋ฅผ ๋งžํž ๊ฐ€๋Šฅ์„ฑ์„ ์˜ˆ์ธกํ•˜๋Š” ๋ฐ ์˜ํ–ฅ์„ ์ค€๋‹ค๋Š” ๊ฐ€์ •์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๊ฒƒ์ธ๋ฐ์š”. ์˜ˆ๋ฅผ ๋“ค์–ด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

ํ•™์ƒ์ด ๋‹ค์Œ ๋ฌธ์ œ et+1e_{t+1}์„ ํ’€ ์ˆ˜ ์žˆ์„์ง€ ์˜ˆ์ธกํ•˜๋ ค๋ฉด ํ•™์ƒ์ด ์ง€๊ธˆ๊นŒ์ง€ ํ’€์—ˆ๋˜ ๋ฌธ์ œ๋“ค x1,x2,...,xtx_1, x_2, ..., x_t (t๋ฒˆ ๋ฌธ์ œ๊นŒ์ง€ ํ’€์—ˆ๋˜ ๋ฌธ์ œ์™€ ์ •์˜ค๋‹ต ์—ฌ๋ถ€)๋กœ ๋‹ค์Œ ๋ฌธ์ œ์—์„œ ์ •์˜ค๋‹ต ์—ฌ๋ถ€๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๋ชจ๋ธ์˜ ์ž…๋ ฅ์€ ์ด์ „ ์ƒํ˜ธ์ž‘์šฉ๋“ค x1,x2,...,xtx_1, x_2, ..., x_t์ด ๋˜๊ณ , ๋‹ค์Œ ๋ฌธ์ œ๋“ค์€ e2,e3,...,ete_2, e_3, ..., e_t๊ฐ€ ๋ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ๋ชจ๋ธ์€ ๊ฐ ๋ฌธ์ œ์— ๋Œ€ํ•œ ์ •๋‹ต ์—ฌ๋ถ€๋ฅผ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค.

์ƒํ˜ธ์ž‘์šฉ xtx_t๋Š” (et,rt)(e_t, r_t)๋ผ๋Š” ํŠœํ”Œ ํ˜•์‹์ด๊ณ  ete_t๋Š” ๋ฌธ์ œ ๋ฒˆํ˜ธ, rtr_t๋Š” ์ •๋‹ต ์—ฌ๋ถ€์ž…๋‹ˆ๋‹ค. ์ด ์ƒํ˜ธ์ž‘์šฉ์„ ๋ชจ๋ธ์— ๋„ฃ๊ธฐ ์œ„ํ•ด, yt=et+rtร—Ey_t = e_t + r_t ร— E๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ EE๋Š” ์ด ๋ฌธ์ œ ์ˆ˜์ด๊ณ , rtr_t๊ฐ€ ์ •๋‹ต์ด๋ฉด ํ•ด๋‹น ๋ฌธ์ œ ๋ฒˆํ˜ธ์— EE๋ฅผ ๋”ํ•ด์ฃผ๊ณ , ์˜ค๋‹ต์ด๋ฉด ๊ทธ๋Œ€๋กœ ๋‘๋Š” ๊ฒƒ์ด์ฃ .

์˜ˆ๋ฅผ ๋“ค์–ด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

๋ฌธ์ œ ๋ฒˆํ˜ธ et = 5, ์ด ๋ฌธ์ œ ์ˆ˜ E = 100์ด๋ผ๊ณ  ๊ฐ€์ •

# ์ •๋‹ต์ธ ๊ฒฝ์šฐ
yt = et + rt ร— E
   = 5 + 1 ร— 100
   = 5 + 100
   = 105

# ์˜ค๋‹ต์ธ ๊ฒฝ์šฐ
yt = et + rt ร— E
   = 5 + 0 ร— 100
   = 5 + 0
   = 5

์ด ๋ฐฉ์‹์œผ๋กœ ํ•™์ƒ์˜ ๊ฐ ์ƒํ˜ธ์ž‘์šฉ์„ ํ•˜๋‚˜์˜ ์ˆซ์ž๋กœ ๋ณ€ํ™˜ํ•ด์„œ ๋ชจ๋ธ์ด ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋„๋ก ๋งŒ๋“ญ๋‹ˆ๋‹ค.

๐Ÿ“Œ Embedding Layer

์ด์ œ ์ž„๋ฒ ๋”ฉ ๋ ˆ์ด์–ด๋ฅผ ๊ฑฐ์ณ ์–ดํ…์…˜ ๊ณ„์‚ฐ์„ ์œ„ํ•œ ์ค€๋น„๋ฅผ ํ•ด์ฃผ๊ฒ ์Šต๋‹ˆ๋‹ค. ์ž„๋ฒ ๋”ฉ ๋ ˆ์ด์–ด์— ๋„ฃ์„ ์ž…๋ ฅ๊ฐ’์„ ์ค€๋น„ํ•˜๋Š” ๊ณผ์ •, ์ž„๋ฒ ๋”ฉ ๋ ˆ์ด์–ด๋ฅผ ๊ฑฐ์น˜๋ฉฐ ์ผ์–ด๋‚˜๋Š” ์ผ, ์ถœ๋ ฅ๊ฐ’์„ ์ˆœ์„œ๋Œ€๋กœ ๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

1. ์ž…๋ ฅ ์‹œํ€€์Šค ๋ณ€ํ™˜ (y โ†’ s)

์•ž์—์„œ ๋ชจ๋ธ ์ž…๋ ฅ ํ˜•์‹์„ y=(y1,y2,...,yt)y = (y_1, y_2, ..., y_t)๋ผ๋Š” ์ƒํ˜ธ์ž‘์šฉ ์‹œํ€€์Šค๋กœ ๋ณ€ํ™˜ํ•ด ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ๊ฐ yiy_i๋Š” ํ•™์ƒ์ด ์–ด๋–ค ๋ฌธ์ œ๋ฅผ ํ’€๊ณ  ๋งžํ˜”๋Š”์ง€ ํ‹€๋ ธ๋Š”์ง€์— ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ๋‹ด๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ด์ œ ์ด ์‹œํ€€์Šค๋ฅผ s=(s1,s2,...,sn)s = (s_1, s_2, ..., s_n)์ด๋ผ๋Š” ๊ณ ์ •๋œ ๊ธธ์ด์˜ ์‹œํ€€์Šค๋กœ ๋ณ€ํ™˜ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ nn์€ ๋ชจ๋ธ์ด ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ์ตœ๋Œ€ ์‹œํ€€์Šค ๊ธธ์ด์ž…๋‹ˆ๋‹ค.

2. Padding & Partition

๋ชจ๋ธ์ด ๊ณ ์ •๋œ ๊ธธ์ด์˜ ์‹œํ€€์Šค๋งŒ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ์ถ”๊ฐ€ ์ž‘์—…์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

์‹œํ€€์Šค ๊ธธ์ด t < ๋ชจ๋ธ์ด ์ฒ˜๋ฆฌ ๊ฐ€๋Šฅํ•œ ์ตœ๋Œ€ ์‹œํ€€์Šค ๊ธธ์ด n์ธ ๊ฒฝ์šฐ, ์‹œํ€€์Šค ์•ž์ชฝ์— ๋นˆ ๋ฌธ์ œ-์ •๋‹ต ์Œ(ํŒจ๋”ฉ)์„ ์ถ”๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์‹œํ€€์Šค ๊ธธ์ด๊ฐ€ 5์ด๊ณ  ๋ชจ๋ธ์ด ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ์ตœ๋Œ€ ๊ธธ์ด n = 10์ด๋ฉด, ์•ž์— 5๊ฐœ์˜ ํŒจ๋”ฉ์„ ๋„ฃ์–ด ์ด ๊ธธ์ด๊ฐ€ 10์ด ๋˜๋„๋ก ๋งž์ถ”์–ด ์ค๋‹ˆ๋‹ค.

์‹œํ€€์Šค ๊ธธ์ด t > ๋ชจ๋ธ์ด ์ฒ˜๋ฆฌ ๊ฐ€๋Šฅํ•œ ์ตœ๋Œ€ ์‹œํ€€์Šค ๊ธธ์ด n์˜ ๊ฒฝ์šฐ, ์—ฌ๋Ÿฌ ๊ฐœ์˜ ์„œ๋ธŒ์‹œํ€€์Šค๋กœ ๋‚˜๋ˆ•๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์‹œํ€€์Šค ๊ธธ์ด๊ฐ€ 25์ด๊ณ  n = 10์ด๋ฉด, ์‹œํ€€์Šค๋ฅผ 10๊ฐœ์”ฉ ๋Š์–ด์„œ 3๊ฐœ(10, 10, 5)์˜ ์„œ๋ธŒ์‹œํ€€์Šค๋กœ ๋‚˜๋ˆ•๋‹ˆ๋‹ค. ์ด๋•Œ ๋งˆ์ง€๋ง‰ 5๊ฐœ์˜ ์„œ๋ธŒ์‹œํ€€์Šค๋Š” ์—ญ์‹œ ํŒจ๋”ฉ์„ ์ถ”๊ฐ€ํ•ด์„œ ๊ธธ์ด๋ฅผ ๋งž์ถฅ๋‹ˆ๋‹ค. ๋‚˜๋ˆ ์ง„ ๋ชจ๋“  ์„œ๋ธŒ์‹œํ€€์Šค๋Š” ๋ชจ๋ธ์˜ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

๐Ÿ“ข ์ž„๋ฒ ๋”ฉ์„ ์ž…๋ ฅ๊ฐ’ ์ค€๋น„๋ฅผ ๋งˆ์ณค์Šต๋‹ˆ๋‹ค.

์ค€๋น„๋œ ์ž…๋ ฅ๊ฐ’์€ ์ž„๋ฒ ๋”ฉ ๋งคํŠธ๋ฆญ์Šค์— ๋“ค์–ด๊ฐ‘๋‹ˆ๋‹ค. ์ž„๋ฒ ๋”ฉ์€ ์„œ๋กœ ๋‹ค๋ฅธ ๊ฐ’์ด ์„œ๋กœ ๋‹ค๋ฅธ ๋งคํŠธ๋ฆญ์Šค์ธ Interaction Embedding M๊ณผ Exercise Embedding(Question Embedding) E๋ฅผ ๊ฑฐ์น˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

3-1. Embedding Matrix : Interaction Embedding MM

์œ„์—์„œ ์ค€๋น„ํ•œ ์ž…๋ ฅ๊ฐ’ sis_i๋Š” interaction embedding matrix ๐‘€๐‘€์— ์ž…๋ ฅ๋ฉ๋‹ˆ๋‹ค. Interaction embedding matrix ๐‘€๐‘€์„ ์ง€๋‚˜๋ฉด ๊ฐ s1,s2,...,sn(0)s_1, s_2, ..., s_n(0)(ํŒจ๋”ฉ ์ ์šฉ ๊ฐ€์ •)์€ ์ž„๋ฒ ๋”ฉ ๋ฒกํ„ฐ ๐‘€๐‘ 1,Ms2,...,Msn๐‘€_{๐‘ 1}, M_{s2}, ..., M_{sn}์„ ์ถœ๋ ฅ์œผ๋กœ ์–ป์Šต๋‹ˆ๋‹ค.

์ด๋•Œ, MM์€ ํฌ๊ธฐ 2Eร—d2E ร— d์˜ ํ–‰๋ ฌ์ธ๋ฐ, ์—ฌ๊ธฐ์„œ EE๋Š” ๋ฌธ์ œ์˜ ๊ฐœ์ˆ˜, dd๋Š” ์ž„๋ฒ ๋”ฉ ๋ฒกํ„ฐ์˜ ์ฐจ์› ์ˆ˜์ž…๋‹ˆ๋‹ค. 2E2E๋Š” ๊ฐ ๋ฌธ์ œ์— ๋Œ€ํ•ด ๋‘ ๊ฐ€์ง€ ๊ฒฝ์šฐ(์ •๋‹ต ์—ฌ๋ถ€: ๋งž์ถค ๋˜๋Š” ํ‹€๋ฆผ)๋ฅผ ํ‘œํ˜„ํ•ฉ๋‹ˆ๋‹ค.

์ž„๋ฒ ๋”ฉ ๋งคํŠธ๋ฆญ์Šค MM์„ ์ง€๋‚˜๋ฉด์„œ ์ˆซ์ž๋กœ ํ‘œํ˜„๋œ ์ƒํ˜ธ์ž‘์šฉ ์ •๋ณด๊ฐ€ ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜๋˜๋Š” ๊ฒƒ์ด์ฃ . ์ด ๋ฒกํ„ฐ๋Š” ๊ฐ ๋ฌธ์ œ์™€ ํ•™์ƒ์˜ ์ •์˜ค๋‹ต ์—ฌ๋ถ€๋ฅผ ์••์ถ•ํ•ด์„œ ์˜๋ฏธ ์žˆ๋Š” ์ •๋ณด๋ฅผ ๋‹ด๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

3-2. Embedding Matrix : Exercise Embedding E

๋‹ค๋ฅธ ์ž„๋ฒ ๋”ฉ ๋งคํŠธ๋ฆญ์Šค Exercise Embedding Matrix EE๋Š” ๋ฌธ์ œ ์ž์ฒด๋ฅผ ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค. EE๋Š” ํฌ๊ธฐ Eร—dE ร— d์˜ ํ–‰๋ ฌ๋กœ, interaction embedding matrix M์—์„œ์™€ ๋™์ผํ•˜๊ฒŒ E๋Š” ๋ฌธ์ œ ๊ฐœ์ˆ˜, d๋Š” ์ž„๋ฒ ๋”ฉ ์ฐจ์› ์ˆ˜์ž…๋‹ˆ๋‹ค. ๊ฐ ๋ฌธ์ œ eie_i๋Š” ์ด ํ–‰๋ ฌ์˜ ํ•œ ํ–‰์— ๋Œ€์‘๋˜๊ณ , ๊ทธ ํ–‰์„ ํ†ตํ•ด ๋ฌธ์ œ์— ๋Œ€ํ•œ ๋ฒกํ„ฐ ํ‘œํ˜„์„ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ด ๋ฒกํ„ฐ๋Š” ํ•™์ƒ์ด ํ˜„์žฌ ํ’€๊ณ  ์žˆ๋Š” ๋ฌธ์ œ์— ๋Œ€ํ•œ ์˜๋ฏธ ์žˆ๋Š” ์ •๋ณด๋ฅผ ๋‹ด๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

4. Position Encoding

์…€ํ”„ ์–ดํ…์…˜์„ ํ™œ์šฉํ•˜๋Š” ์žฅ์ ์€ ์—ฌ๋Ÿฌ ๊ฐ€์ง€๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.

  • ๊ณผ๊ฑฐ ๋ฌธ์ œ ํ’€์ด ์ด๋ ฅ๊ณผ ๋จผ ์‹œ์ ์˜ ๋ฌธ์ œ์™€ ํ˜„์žฌ ๋ฌธ์ œ ๊ฐ„ ๊ด€๊ณ„๋ฅผ ํŒŒ์•…ํ•˜๋Š” ๋ฐ ์œ ๋ฆฌํ•จ
  • ์ž…๋ ฅ ์‹œํ€€์Šค๋ฅผ ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌํ•ด์„œ ํ•™์Šต ์†๋„๊ฐ€ ๋น ๋ฆ„

ํ•˜์ง€๋งŒ ์…€ํ”„ ์–ดํ…์…˜์˜ ๋ฌธ์ œ๊ฐ€ ํ•œ ๊ฐ€์ง€ ์žˆ๋Š”๋ฐ์š”. RNN, LSTM๊ณผ ๊ฐ™์€ ๋ชจ๋ธ์€ ์‹œ๊ฐ„์  ์ˆœ์„œ๋ฅผ ๋ช…์‹œ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๋ฉด์„œ ์ƒํƒœ๋ฅผ ์ง€์†์ ์œผ๋กœ ์—…๋ฐ์ดํŠธํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ˆœ์„œ ์ •๋ณด๋ฅผ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์ธ์‹ํ•ฉ๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด, ์…€ํ”„ ์–ดํ…์…˜์€ Transformer์˜ attention mechanism์„ ํ™œ์šฉํ•˜๋ฏ€๋กœ ์‹œํ€€์Šค๊ฐ€ ํ•œ ๋ฒˆ์— ๋ณ‘๋ ฌ๋กœ ์ž…๋ ฅ๋˜์–ด ๋‹จ์–ด ์ˆœ์„œ์— ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ๋‹ด๊ณ  ์žˆ์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ๋‹จ์–ด ์œ„์น˜ ์ •๋ณด๋ฅผ ์ถ”๊ฐ€ํ•ด ์ฃผ๋Š”๋ฐ, ์ด ๊ณผ์ •์ด Position Encoding์ž…๋‹ˆ๋‹ค. ํฌ์ง€์…˜ ์ธ์ฝ”๋”ฉ์€ ์ˆœ์„œ ์ •๋ณด๋ฅผ ์ œ๊ณตํ•จ์œผ๋กœ์จ ์ง€์‹ ์ƒํƒœ์˜ ์ ์ง„์  ๋ณ€ํ™”๋ฅผ ํฌ์ฐฉํ•˜๊ณ  ์ง€์†์ ์ธ ์ง€์‹ ์ถ”์ ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.

๐Ÿค” ์ง€์‹ ์ถ”์ ์˜ ๊ด€์ ์—์„œ ๋ฌธ์ œ ํ’€์ด ์ด๋ ฅ ๋ฒกํ„ฐ๊ฐ€ ์ˆœ์„œ ์ •๋ณด๋ฅผ ๋‹ด๋Š” ์ด์œ ๋Š” ๋ฌด์—‡์ผ๊นŒ์š”?

์ง€์‹ ์ƒํƒœ๋Š” ํ•™์ƒ์ด ํŠน์ • ์‹œ๊ฐ„์— ์–ผ๋งˆ๋‚˜ ๋งŽ์€ ์ง€์‹์„ ๊ฐ€์ง€๊ณ  ์žˆ๋Š”์ง€๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ์ด ์ƒํƒœ๋Š” ํ•™์ƒ์˜ ๋ฌธ์ œ ํ’€์ด ๊ฒฝํ—˜์— ๋”ฐ๋ผ ์„œ์„œํžˆ ์ง„ํ™”ํ•˜๋Š” ๊ฒฝํ–ฅ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ํ•™์ƒ์ด ๋ง์…ˆ ๋ฌธ์ œ๋ฅผ ์—ฌ๋Ÿฌ ๋ฒˆ ํ’€๋ฉด์„œ ๊ทธ ๊ฐœ๋…์„ ์ ์ง„์ ์œผ๋กœ ์ดํ•ดํ•˜๊ฒŒ ๋˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ง€์‹ ์ƒํƒœ๋Š” Wavy transitions, ์ฆ‰ ํ•™์ƒ์˜ ์ง€์‹ ์ƒํƒœ๊ฐ€ ๋ถˆ๊ทœ์น™ํ•˜๊ฒŒ ๋ณ€ํ™”ํ•˜๋ฉด ์•ˆ๋ฉ๋‹ˆ๋‹ค. ์–ด๋–ค ๋ฌธ์ œ์—์„œ ์ž˜ ํ’€์—ˆ๋‹ค๊ฐ€ ๋‹ค์Œ ๋ฌธ์ œ์—์„œ ๊ฐ‘์ž๊ธฐ ํ‹€๋ฆฌ๋Š” ์‹์œผ๋กœ ์ง€์‹ ์ƒํƒœ๊ฐ€ ์ž์ฃผ ๋ณ€๋™ํ•˜๋ฉด ๋ชจ๋ธ์ด ํ•™์ƒ์˜ ์‹ค์ œ ํ•™์Šต ๊ณผ์ •์„ ์ œ๋Œ€๋กœ ๋ฐ˜์˜ํ•˜์ง€ ๋ชปํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์ง€์‹ ์ถ”์  ๋ชจ๋ธ์—์„œ๋Š” ์ด๋Ÿฌํ•œ ๋ถˆ์•ˆ์ •ํ•œ ๋ณ€ํ™”๊ฐ€ ์—†๋„๋ก ํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค.

๋งŒ์•ฝ ํ•™์ƒ์ด 1๋ฒˆ ๋ฌธ์ œ์—์„œ ์„ฑ๊ณตํ•˜๊ณ  2๋ฒˆ ๋ฌธ์ œ์—์„œ ์‹คํŒจํ–ˆ๋‹ค๋ฉด, ํฌ์ง€์…˜ ์ธ์ฝ”๋”ฉ์ด ์—†์œผ๋ฉด ๋ชจ๋ธ์€ ๋‘ ๋ฌธ์ œ์˜ ๊ฒฐ๊ณผ๋ฅผ ๋…๋ฆฝ์ ์œผ๋กœ ๊ณ ๋ คํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ํฌ์ง€์…˜ ์ธ์ฝ”๋”ฉ์ด ์žˆ๋‹ค๋ฉด, ๋ชจ๋ธ์€ ๋ฌธ์ œ์˜ ์ˆœ์„œ์™€ ๊ณผ๊ฑฐ์˜ ์„ฑ๊ณผ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ํ•™์ƒ์˜ ์ง€์‹ ์ƒํƒœ๊ฐ€ ์—ฌ์ „ํžˆ ๊ฐœ์„ ๋˜๊ณ  ์žˆ๋‹ค๋Š” ์ ์„ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ ‘๊ทผ์€ ํ•™์ƒ์ด ๊ฐ ๋ฌธ์ œ๋ฅผ ํ†ตํ•ด ์–ด๋–ป๊ฒŒ ๋ฐฐ์›Œ๊ฐ€๊ณ  ์žˆ๋Š”์ง€๋ฅผ ๋ช…ํ™•ํžˆ ์ถ”์ ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜์—ฌ, ์ดํ›„ ๋ฌธ์ œ ํ’€์ด์—์„œ ์–ด๋–ค ๊ฐœ๋…์ด ๋” ํ•„์š”ํ• ์ง€๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋ฐ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ๋งฅ๋ฝ์—์„œ ํฌ์ง€์…˜ ์ธ์ฝ”๋”ฉ์€ ์ƒํ˜ธ์ž‘์šฉ ์ž„๋ฒ ๋”ฉ(MM)์—์„œ ํ•™์ƒ์˜ ๊ณผ๊ฑฐ ์ƒํ˜ธ์ž‘์šฉ์˜ ์ˆœ์„œ๋ฅผ ์ธ์‹ํ•˜๊ธฐ ์œ„ํ•ด ์ ์šฉ๋˜๋ฉฐ, ์ด๋Š” ์ง€์‹ ์ƒํƒœ๋ฅผ ์‹œ๊ฐ„์— ๋”ฐ๋ผ ์ถ”์ ํ•˜๋Š” ๋ฐ ํ•„์ˆ˜์ ์ž…๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด, ๋ฌธ์ œ ์ž„๋ฒ ๋”ฉ์€ ๊ณ ์ •๋œ ์ •๋ณด์ด๊ธฐ ๋•Œ๋ฌธ์— ํฌ์ง€์…˜ ์ธ์ฝ”๋”ฉ์ด ํ•„์š”ํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.

์ด๋ ‡๊ฒŒ ํฌ์ง€์…˜ ์ธ์ฝ”๋”ฉ๊นŒ์ง€ ๋”ํ•ด SAKT ๋ชจ๋ธ์˜ ์ž„๋ฒ ๋”ฉ ๋ ˆ์ด์–ด์—์„œ ์ƒ์„ฑ๋˜๋Š” ์ตœ์ข… ์ถœ๋ ฅ์€ ๋ฌธ์ œ ํ’€์ด ์ด๋ ฅ ๋ฒกํ„ฐ M^\hat{M}๊ณผ ํ˜„์žฌ ๋ฌธ์ œ ๋ฒกํ„ฐ E^\hat{E}์ž…๋‹ˆ๋‹ค.

๐Ÿ“Œ Self-attention layer

์•ž์—์„œ SAKT๋Š” ๊ณผ๊ฑฐ์˜ ๋ชจ๋“  ํ™œ๋™์„ ์‚ฌ์šฉํ•˜๋Š” ๋Œ€์‹ , ํ•ด๋‹น KC์™€ ๊ด€๋ จ๋œ ์ค‘์š”ํ•œ ํ™œ๋™๋งŒ์„ ์„ ํƒํ•˜์—ฌ ๋ฐ์ดํ„ฐ ํฌ์†Œ์„ฑ ๋ฌธ์ œ๋ฅผ ๋” ํšจ๊ณผ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•œ๋‹ค๊ณ  ํ–ˆ๋Š”๋ฐ์š”. ํ˜„์žฌ ํ•™์ƒ์ด ํ’€๊ณ  ์žˆ๋Š” ๋ฌธ์ œ์™€ ์ด์ „ ๋ฌธ์ œ ํ’€์ด ์ด๋ ฅ์˜ ์—ฐ๊ด€์„ฑ์„ ๊ณ„์‚ฐํ•˜๊ธฐ ์œ„ํ•ด Self-attention ๋ ˆ์ด์–ด๋ฅผ ๊ฑฐ์ณ ์ฟผ๋ฆฌ ๐‘„, ํ‚ค ๐พ, ๊ฐ’ ๐‘‰๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.

์ฟผ๋ฆฌ (QQ) : ํ˜„์žฌ ๋ฌธ์ œ์˜ ์ •๋ณด๋กœ, ํ•™์ƒ์ด ํ‘ธ๋Š” ๋ฌธ์ œ์— ๋Œ€ํ•œ ํ‘œํ˜„ (from exercise embedding)
ํ‚ค (KK) : ์ด์ „ ๋ฌธ์ œ๋“ค์˜ ์ •๋ณด๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ํ‘œํ˜„ (from interaction embedding)
๊ฐ’ (VV) : ์ด์ „ ๋ฌธ์ œ์˜ ๊ฒฐ๊ณผ(์˜ˆ: ์ •๋‹ต ์—ฌ๋ถ€) (from interaction embedding)

๊ฐ ๋ฒกํ„ฐ(Q, K, V)๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์‹์„ ํ†ตํ•ด ๋ณ€ํ™˜๋ฉ๋‹ˆ๋‹ค.

M^\hat{M} : ์ƒํ˜ธ์ž‘์šฉ์˜ ์ž„๋ฒ ๋”ฉ ๋งคํŠธ๋ฆญ์Šค
E^\hat{E} : ์šด๋™(๋ฌธ์ œ)์˜ ์ž„๋ฒ ๋”ฉ ๋งคํŠธ๋ฆญ์Šค
WQ,WK,WVW^Q, W^K, W^V : ๊ฐ๊ฐ ์ฟผ๋ฆฌ, ํ‚ค, ๊ฐ’์˜ ํˆฌ์˜ ๋งคํŠธ๋ฆญ์Šค

ํˆฌ์˜๊ณผ ๊ด€๋ จํ•ด์„œ๋Š” ๊ณ ์ˆ˜ ๋ธ”๋กœ๊ฑฐ ๋ถ„์˜ ํฌ์ŠคํŒ…์„ ์ฒจ๋ถ€ํ•ฉ๋‹ˆ๋‹ค.
[์„ ํ˜•๋Œ€์ˆ˜ํ•™] ํˆฌ์˜(projection)๊ณผ ์ตœ์†Œ์ž์Šน๋ฒ•(least square method)

์ง€์‹ ์ถ”์ ์—์„œ ํˆฌ์˜ ๋งคํŠธ๋ฆญ์Šค๊ฐ€ ํ™œ์šฉ๋˜๋Š” ์ด์œ ๋ฅผ ๊ฐ„๋‹จํžˆ ์ •๋ฆฌํ•˜๋ฉด ๋ฐ์ดํ„ฐ์˜ ํŠน์„ฑ์„ ๋ณ€ํ˜•ํ•˜๊ณ  ๋‹ค์–‘ํ•œ ๊ณต๊ฐ„์œผ๋กœ ๋งคํ•‘ํ•จ์œผ๋กœ์จ ๋ชจ๋ธ์ด ๊ณผ๊ฑฐ ๋ฌธ์ œ ํ’€์ด ์ด๋ ฅ๊ณผ ํ˜„์žฌ ๋ฌธ์ œ ๊ฐ„์˜ ์—ฐ๊ด€์„ฑ์„ ํšจ๊ณผ์ ์œผ๋กœ ๊ณ„์‚ฐํ•˜์—ฌ ํ•™์ƒ์˜ ์ง€์‹ ์ƒํƒœ๋ฅผ ๋” ์ž˜ ์ถ”์ ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.

์ด๋ ‡๊ฒŒ ๋ณ€ํ™˜ํ•œ ๋ฒกํ„ฐ Q, K, V๋กœ ์ด์ „ ์ƒํ˜ธ์ž‘์šฉ๊ณผ ํ˜„์žฌ ๋ฌธ์ œ ๊ฐ„์˜ ๊ด€๋ จ์„ฑ์„ ๊ณ„์‚ฐํ•˜๊ธฐ ์œ„ํ•ด ์–ดํ…์…˜ ๊ฐ€์ค‘์น˜๋ฅผ ์‚ฌ์šฉํ•˜๋Š”๋ฐ, ์–ดํ…์…˜ ๊ฐ€์ค‘์น˜๋ฅผ ์ฐพ๊ธฐ ์œ„ํ•ด scaled dot-product attention์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ˆ˜์‹์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

QKTQK^T๋Š” ์ฟผ๋ฆฌ์™€ ํ‚ค์˜ ๋‚ด์ ์„ ๊ณ„์‚ฐํ•˜์—ฌ, ์ฟผ๋ฆฌ์™€ ํ‚ค ๊ฐ„์˜ ์œ ์‚ฌ๋„๋ฅผ ์ธก์ •ํ•ฉ๋‹ˆ๋‹ค. ๐‘‘\sqrt{๐‘‘}๋กœ ๋‚˜๋ˆ„๋Š” ๊ฒƒ์€ ์Šค์ผ€์ผ๋ง์ž…๋‹ˆ๋‹ค. ์ด๋Š” ์ฐจ์›์ด ์ปค์งˆ์ˆ˜๋ก ๋‚ด์  ๊ฐ’์ด ์ปค์ง€๋Š” ๊ฒฝํ–ฅ์ด ์žˆ์–ด, softmax ๊ณ„์‚ฐ์˜ ์•ˆ์ •์„ฑ์„ ๋†’์ด๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. softmax ํ•จ์ˆ˜๋Š” ์œ ์‚ฌ๋„๋ฅผ ํ™•๋ฅ ๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ ๊ฐ ์ด์ „ ์ƒํ˜ธ์ž‘์šฉ์ด ํ˜„์žฌ ๋ฌธ์ œ์— ์–ผ๋งˆ๋‚˜ ์ค‘์š”ํ•œ์ง€๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.

์•„๋ž˜ ์‚ฌ์ง„์—์„œ a14,a24,a34,a44a_{14}, a_{24}, a_{34}, a_{44}๋Š” ๊ฐ๊ฐ q1,q2,q3,q4q_1, q_2, q_3, q_4๋ฅผ k1,k2,k3,k4k_1, k_2, k_3, k_4์™€ ๋‚ด์ ์„ ๊ณ„์‚ฐํ•˜์—ฌ ๋„์ถœํ•œ ์–ดํ…์…˜ ๊ฐ€์ค‘์น˜์ž…๋‹ˆ๋‹ค.

Multiple heads

๋ฉ€ํ‹ฐํ—ค๋“œ ์–ดํ…์…˜์€ ์—ฌ๋Ÿฌ ๊ฐœ์˜ ์–ดํ…์…˜ ํ—ค๋“œ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์„œ๋กœ ๋‹ค๋ฅธ ์„œ๋ธŒ์ŠคํŽ˜์ด์Šค์—์„œ ์ •๋ณด๋ฅผ ๋™์‹œ์— ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ๋ชจ๋ธ์ด ๋‹ค์–‘ํ•œ ์ •๋ณด์— ์ฃผ์˜๋ฅผ ๊ธฐ์šธ์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

M^\hat{M} : ์ž„๋ฒ ๋”ฉ๋œ ์ƒํ˜ธ์ž‘์šฉ ์ž…๋ ฅ ๋งคํŠธ๋ฆญ์Šค
E^\hat{E} : ์ž„๋ฒ ๋”ฉ๋œ ์—ฐ์Šต ๋ฌธ์ œ ๋งคํŠธ๋ฆญ์Šค
ConcatConcat : ๊ฐ ํ—ค๋“œ์˜ ๊ฒฐ๊ณผ๋ฅผ ๊ฒฐํ•ฉ(concatenate)ํ•˜๋Š” ํ•จ์ˆ˜
head๐‘–head_๐‘– : ๊ฐ ์–ดํ…์…˜ ํ—ค๋“œ์˜ ๊ฒฐ๊ณผ๋กœ ๊ฐ ํ—ค๋“œ๋Š” ๋…๋ฆฝ์ ์œผ๋กœ ์ •๋ณด๋ฅผ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค.
๐‘Š๐‘‚๐‘Š^๐‘‚ : ์ตœ์ข… ์ถœ๋ ฅ์„ ์œ„ํ•œ ์„ ํ˜• ๋ณ€ํ™˜ ๋งคํŠธ๋ฆญ์Šค๋กœ ์ด ๋งคํŠธ๋ฆญ์Šค๋Š” ๊ฐ ํ—ค๋“œ์˜ ๊ฒฐ๊ณผ๋ฅผ ๊ฒฐํ•ฉํ•œ ํ›„ ์ตœ์ข… ์ฐจ์›์„ ๋งž์ถ”๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.
hโ„Ž : ์–ดํ…์…˜ ํ—ค๋“œ์˜ ์ˆ˜

๊ฐ ํ—ค๋“œ์˜ ๊ณ„์‚ฐ ๋ฐฉ์‹์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

Causality

๋ชจ๋ธ์€ (๐‘ก+1)๋ฒˆ์งธ ๋ฌธ์ œ์˜ ๊ฒฐ๊ณผ๋ฅผ ์˜ˆ์ธกํ•  ๋•Œ, ๐‘ก๊ฐœ์˜ ์ƒํ˜ธ์ž‘์šฉ๋งŒ ๊ณ ๋ คํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ํ˜„์žฌ ๋ฌธ์ œ๋ฅผ ์˜ˆ์ธกํ•  ๋•Œ ๋ฏธ๋ž˜์˜ ์ƒํ˜ธ์ž‘์šฉ(์˜ˆ: ๐‘—>๐‘–)์˜ ์ •๋ณด๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ์•ˆ ๋ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด causality layer๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ฏธ๋ž˜์˜ ํ‚ค์— ๋Œ€ํ•œ ๊ฐ€์ค‘์น˜๋ฅผ ๋งˆ์Šคํ‚นํ•ฉ๋‹ˆ๋‹ค. ์ด ๋งˆ์Šคํ‚น์€ ๋ชจ๋ธ์ด ๊ณผ๊ฑฐ ์ƒํ˜ธ์ž‘์šฉ๋งŒ ๊ณ ๋ คํ•˜๊ฒŒ ํ•˜์—ฌ ์ •ํ™•ํ•œ ์˜ˆ์ธก์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ“Œ Feed Forward layer

์œ„์—์„œ ์„ค๋ช…ํ•œ ์ž์ฒด attention ๋ ˆ์ด์–ด๋Š” ์ด์ „ ์ƒํ˜ธ์ž‘์šฉ์˜ ๊ฐ€์ค‘์น˜ ํ•ฉ์ธ ViV_i๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋ฉ€ํ‹ฐํ—ค๋“œ ๋ ˆ์ด์–ด์—์„œ ์–ป์€ ํ–‰๋ ฌ์˜ ํ–‰์ธ Multihead(M^,E^\hat{M}, \hat{E})๋Š” ์—ฌ์ „ํžˆ ์ด์ „ ์ƒํ˜ธ์ž‘์šฉ์˜ ๊ฐ’์ธ ViV_i์˜ ์„ ํ˜• ์กฐํ•ฉ์ž…๋‹ˆ๋‹ค. ์„ ํ˜• ๋ณ€ํ™˜๋งŒ์œผ๋กœ๋Š” ๋ณต์žกํ•œ ๋ฐ์ดํ„ฐ ํŒจํ„ด์„ ์ž˜ ๋ชจ๋ธ๋งํ•˜๊ธฐ ์–ด๋ ต์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋‘ ๊ฐœ์˜ ์„ ํ˜• ํ•จ์ˆ˜ ๐‘ฆ=๐‘Ž๐‘ฅ+๐‘๐‘ฆ=๐‘Ž๐‘ฅ+๐‘๋Š” ๋‘ ๋ณ€์ˆ˜ ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ์ง์„ ์œผ๋กœ ์ œํ•œํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ๋งŽ์€ ์‹ค์ œ ๋ฐ์ดํ„ฐ๋Š” ๋น„์„ ํ˜•์  ๊ด€๊ณ„๋ฅผ ๊ฐ€์ง‘๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ๋ชจ๋ธ์— ํ™œ์„ฑํ™” ํ•จ์ˆ˜(์˜ˆ: ReLU)๋ฅผ ํ†ตํ•ด ๋น„์„ ํ˜•์„ฑ์„ ๋„์ž…ํ•˜์—ฌ ๋น„์„ ํ˜•์„ฑ์„ ํ†ตํ•ฉํ•˜๊ณ  ์„œ๋กœ ๋‹ค๋ฅธ ์ž ์žฌ ์ฐจ์› ๊ฐ„์˜ ๋‹ค์–‘ํ•œ ์ƒํ˜ธ์ž‘์šฉ์„ ๊ณ ๋ คํ•˜์—ฌ ๋ชจ๋ธ ํ‘œํ˜„๋ ฅ ํ–ฅ์ƒ์„ ์œ„ํ•ด ํ”ผ๋“œ ํฌ์›Œ๋“œ ๋„คํŠธ์›Œํฌ๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

ReLUReLU : ๋น„์„ ํ˜• ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋กœ, ์ถœ๋ ฅ์ด 0๋ณด๋‹ค ์ž‘์œผ๋ฉด 0์œผ๋กœ ์„ค์ •ํ•˜๊ณ , 0๋ณด๋‹ค ํฌ๋ฉด ๊ทธ๋Œ€๋กœ ์ถœ๋ ฅ
๐‘Š(1),๐‘Š(2)๐‘Š^{(1)}, ๐‘Š^{(2)} : ํ•™์Šต๋˜๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ ๋งคํŠธ๋ฆญ์Šค๋กœ, ๊ฐ๊ฐ ๐‘‘ร—๐‘‘ ์ฐจ์›
b(1),b(2)b^{(1)}, b^{(2)} : ํ•™์Šต๋˜๋Š” ํŽธํ–ฅ ๋ฒกํ„ฐ๋กœ, ๊ฐ๊ฐ ๐‘‘ ์ฐจ์›

๐Ÿ“Œ Residual Connections

์ž”์ฐจ ์—ฐ๊ฒฐ์€ ๋‚ฎ์€ ๋ ˆ์ด์–ด์˜ ํ”ผ์ฒ˜๋ฅผ ๋†’์€ ๋ ˆ์ด์–ด๋กœ ์ „ํŒŒํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋‚ฎ์€ ๋ ˆ์ด์–ด์˜ ์ •๋ณด๊ฐ€ ์˜ˆ์ธก์— ์ค‘์š”ํ•  ๊ฒฝ์šฐ, ์ด๋ฅผ ๋งˆ์ง€๋ง‰ ๋ ˆ์ด์–ด๋กœ ์‰ฝ๊ฒŒ ์ „๋‹ฌํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ค๋‹ˆ๋‹ค.

ํ•™์ƒ์ด ํŠน์ • ๊ฐœ๋…์— ์†ํ•˜๋Š” ๋ฌธ์ œ๋ฅผ ํ‘ธ๋Š” ๊ฒฝ์šฐ, ์ž”์ฐจ ์—ฐ๊ฒฐ์ด ์ตœ๊ทผ์— ํ•ด๊ฒฐ๋œ ๋ฌธ์ œ์˜ ์ž„๋ฒ ๋”ฉ์„ ๋งˆ์ง€๋ง‰ ๋ ˆ์ด์–ด๋กœ ์ „ํŒŒํ•˜์—ฌ ๋‚ฎ์€ ๋ ˆ์ด์–ด์˜ ์ •๋ณด๋ฅผ ๋ชจ๋ธ์ด ํ™œ์šฉํ•˜๊ธฐ ์‰ฝ๊ฒŒ ๋งŒ๋“ญ๋‹ˆ๋‹ค.

์ž”์ฐจ ์—ฐ๊ฒฐ์€ self-attention ๋ ˆ์ด์–ด์™€ ํ”ผ๋“œํฌ์›Œ๋“œ ๋ ˆ์ด์–ด ๊ฐ๊ฐ์˜ ๋’ค์— ์ ์šฉ๋ฉ๋‹ˆ๋‹ค.

๐Ÿ“Œ Layer normalization

๋ ˆ์ด์–ด ์ •๊ทœํ™”๋Š” ์ž…๋ ฅ์„ ์ •๊ทœํ™”ํ•˜์—ฌ ์‹ ๊ฒฝ๋ง์˜ ์•ˆ์ •์„ฑ๊ณผ ํ•™์Šต ์†๋„๋ฅผ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ์ž…๋ ฅ์„ ์ •๊ทœํ™”ํ•˜๋ฉด ๊ฐ ๋ ˆ์ด์–ด์˜ ์ถœ๋ ฅ์„ ์•ˆ์ •ํ™”ํ•˜๊ณ , ํ•™์Šต ๊ณผ์ •์—์„œ ๋” ๋น ๋ฅด๊ฒŒ ์ˆ˜๋ ดํ•˜๊ฒŒ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋ ˆ์ด์–ด ์ •๊ทœํ™”์€ self-attention ๋ ˆ์ด์–ด์™€ ํ”ผ๋“œํฌ์›Œ๋“œ ๋ ˆ์ด์–ด ๊ฐ๊ฐ์˜ ๋’ค์— ์ ์šฉ๋ฉ๋‹ˆ๋‹ค.

๐Ÿ“Œ Prediction layer

๋งˆ์ง€๋ง‰์œผ๋กœ ์œ„์—์„œ ์–ป์€ ํ–‰๋ ฌ FiF_i์˜ ๊ฐ ํ–‰์€ Fully Connected Network๋ฅผ ํ†ต๊ณผ์‹œํ‚จ ํ›„ ์ด์ง„ ๋ถ„๋ฅ˜(์ •๋‹ต/์˜ค๋‹ต)์„ ์˜ˆ์ธกํ•˜๊ธฐ ์œ„ํ•ด ์ตœ์ข…์ ์œผ๋กœ 0 ๊ณผ 1 ์‚ฌ์ด์˜ ๊ฐ’์œผ๋กœ ์ถœ๋ ฅํ•˜๋Š” ์‹œ๊ทธ๋ชจ์ด๋“œ ํ™œ์„ฑํ™” ํ•จ์ˆ˜์— ํ†ต๊ณผ์‹œ์ผœ ํ•™์ƒ์˜ ์ •์˜ค๋‹ต์„ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค.

pip_i : ์Šค์นผ๋ผ์ด๋ฉฐ ํ•™์ƒ์ด ์šด๋™ eie_i์— ๋Œ€ํ•œ ์˜ฌ๋ฐ”๋ฅธ ์‘๋‹ต์„ ์ œ๊ณตํ•  ํ™•๋ฅ 
FiF_i : FF์™€ Sigmoid(z)=1/(1+eโˆ’z)Sigmoid(z) = 1/(1 + e^{-z})์˜ ii๋ฒˆ์งธ ํ–‰

๐Ÿ“Œ Network Training

ํ›ˆ๋ จ์˜ ๋ชฉํ‘œ๋Š” ๋ชจ๋ธ ํ•˜์—์„œ ๊ด€์ฐฐ๋œ ํ•™์ƒ ์‘๋‹ต์˜ ์Œ์˜ ๋กœ๊ทธ ๊ฐ€๋Šฅ๋„๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ํŒŒ๋ผ๋ฏธํ„ฐ๋Š” ptp_t์™€ rtr_t ์‚ฌ์ด์˜ ํฌ๋กœ์Šค ์—”ํŠธ๋กœํ”ผ ์†์‹ค์„ ์ตœ์†Œํ™”ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ํ•™์Šต๋ฉ๋‹ˆ๋‹ค.

rtr_t : ์‹œ๊ฐ„ ๐‘ก์—์„œ ํ•™์ƒ์˜ ์‹ค์ œ ์‘๋‹ต(์ •๋‹ต์ผ ๊ฒฝ์šฐ 1, ํ‹€๋ฆด ๊ฒฝ์šฐ 0)
p๐‘กp_๐‘ก : ๋ชจ๋ธ์ด ์˜ˆ์ธกํ•œ ์ •๋‹ต ํ™•๋ฅ 

โœ… EXPERIMENTAL SETTINGS

๐Ÿ“Œ Datasets

๐Ÿ“Œ Evaluation Methodology

์„ฑ๋Šฅ ๋น„๊ต๋ฅผ ์œ„ํ•ด AUC(Area Under Curve) ์ง€ํ‘œ๋ฅผ ์‚ฌ์šฉํ–ˆ๊ณ , ์ตœ์‹  ์ง€์‹ ์ถ”์ (KT) ๋ฐฉ๋ฒ•์ธ DKT, DKT+, ๊ทธ๋ฆฌ๊ณ  DKVMN๊ณผ ๋น„๊ตํ–ˆ์Šต๋‹ˆ๋‹ค.

๋ชจ๋ธ ํ•™์Šต ์‹œ ์ „์ฒด ๋ฐ์ดํ„ฐ์…‹ ์ค‘ 80%๋ฅผ ํ•™์Šต์— ์‚ฌ์šฉํ•˜๊ณ  ๋‚˜๋จธ์ง€ 20%๋ฅผ ํ…Œ์ŠคํŠธ์— ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ชจ๋“  ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด ์ˆจ๊ฒจ์ง„ ์ƒํƒœ์˜ ์ฐจ์› ๐‘‘๋Š” {50, 100, 150, 200}์„ ์‹œ๋„ํ–ˆ์Šต๋‹ˆ๋‹ค. SAKT(Successive Attention Knowledge Tracing)๋Š” TensorFlow๋กœ ๊ตฌํ˜„๋˜์—ˆ์œผ๋ฉฐ, ADAM ์˜ตํ‹ฐ๋งˆ์ด์ €๋ฅผ ์‚ฌ์šฉํ•ด ํ•™์Šต๋ฅ  0.001๋กœ ํ•™์Šตํ–ˆ์Šต๋‹ˆ๋‹ค.

ASSISTChall ๋ฐ์ดํ„ฐ์…‹์€ ๋ฐฐ์น˜ ํฌ๊ธฐ 256, ๋‚˜๋จธ์ง€ ๋ฐ์ดํ„ฐ์…‹์€ 128์„ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ์ƒํ˜ธ์ž‘์šฉ์ด ๋งŽ์€ ๋ฐ์ดํ„ฐ์…‹(ASSISTChall, ASSIST2015)์—์„œ๋Š” ๋“œ๋กญ์•„์›ƒ ๋น„์œจ์„ 0.2๋กœ ์„ค์ •ํ–ˆ๊ณ , ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ์…‹์—์„œ๋Š” 0.2๋ฅผ ์œ ์ง€ํ–ˆ์Šต๋‹ˆ๋‹ค. ์‹œํ€€์Šค์˜ ์ตœ๋Œ€ ๊ธธ์ด ๐‘›์€ ํ•™์ƒ๋‹น ํ‰๊ท  ๋ฌธ์ œ ํƒœ๊ทธ ์ˆ˜์— ๋น„๋ก€ํ•˜์—ฌ ์„ค์ •ํ–ˆ์Šต๋‹ˆ๋‹ค. ASSISTChall๊ณผ STATICS ๋ฐ์ดํ„ฐ์…‹์€ ๐‘›=500, ASSIST2009๋Š” ๐‘›=100๊ณผ 50, ์ธ๊ณต ๋ฐ ASSIST2015 ๋ฐ์ดํ„ฐ์…‹์€ ๐‘›=50์œผ๋กœ ์„ค์ •ํ–ˆ์Šต๋‹ˆ๋‹ค.

โœ… RESULTS AND DISCUSSION

๐Ÿ“Œ Student Performance Prediction

SAKT ๋ชจ๋ธ์€ ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ์…‹์—์„œ ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋œ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์—ฌ์ฃผ๋ฉฐ, ํŠนํžˆ ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์ด ํšจ๊ณผ์ ์œผ๋กœ ์ž‘๋™ํ•˜์—ฌ ํฌ์†Œํ•œ ๋ฐ์ดํ„ฐ์…‹์—์„œ๋„ ๊ฐ•ํ•œ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ๋ฐœํœ˜ํ•ฉ๋‹ˆ๋‹ค. Synthetic ๋ฐ์ดํ„ฐ์…‹์—์„œ๋Š” ๋†’์€ ์ƒ๊ด€๊ด€๊ณ„๋ฅผ ํ†ตํ•ด ๊ฐœ๋… ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ์ž˜ ์ดํ•ดํ•˜๊ณ , ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ์…‹์—์„œ๋„ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ“Œ Attention weights visualization

๊ณผ๊ฑฐ ์ƒํ˜ธ์ž‘์šฉ์—์„œ์˜ ๊ฐ ๋ฌธ์ œ(ํ‚ค ์—ญํ• )์™€ ํ•™์ƒ์ด ๋‹ค์Œ์— ํ’€ ๋ฌธ์ œ(์ฟผ๋ฆฌ ์—ญํ• ) ๊ฐ„์˜ ์–ดํ…์…˜ ๊ฐ€์ค‘์น˜๋ฅผ ์‹œ๊ฐํ™”ํ•จ์œผ๋กœ์จ, ํ•™์ƒ์˜ ํ˜„์žฌ ๋ฌธ์ œ ํ•ด๊ฒฐ์— ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š” ๊ณผ๊ฑฐ ๋ฌธ์ œ๋“ค์„ ํŒŒ์•…ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ํŠน์ • ๋ฌธ์ œ ์Œ(e1, e2) ๊ฐ„์˜ ์ƒ๊ด€๊ด€๊ณ„๋ฅผ ๋ถ„์„ํ•˜๊ณ , ๊ฐ ์ฟผ๋ฆฌ์— ๋Œ€ํ•œ ๊ฐ€์ค‘์น˜์˜ ํ•ฉ์ด 1์ด ๋˜๋„๋ก ์ •๊ทœํ™”ํ•˜์—ฌ ๊ด€๋ จ์„ฑ ํ–‰๋ ฌ(relevance matrix)์„ ๋งŒ๋“ญ๋‹ˆ๋‹ค. ์ด ํ–‰๋ ฌ์˜ ๊ฐ ์š”์†Œ (e1, e2)๋Š” e2๊ฐ€ e1์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.

Synthetic ๋ฐ์ดํ„ฐ์…‹์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ถ„์„์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ฐ์ดํ„ฐ์…‹์€ ์ˆจ๊ฒจ์ง„ ๊ฐœ๋…(hidden concepts)์ด ์•Œ๋ ค์ ธ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ์„œ๋กœ ๋‹ค๋ฅธ ๋ฌธ์ œ ๊ฐ„์˜ ๊ด€๋ จ์„ฑ์— ๋Œ€ํ•œ ์ง„์‹ค ๊ฐ’(ground truth)์„ ์•Œ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ชจ๋“  ์‹œํ€€์Šค๋Š” 1์—์„œ 50๊นŒ์ง€์˜ ๋ชจ๋“  ๋ฌธ์ œ ํƒœ๊ทธ๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค.

์œ ์‚ฌ๋„ ํ–‰๋ ฌ์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ฌธ์ œ ํƒœ๊ทธ ๊ฐ„์˜ ์˜ํ–ฅ ๊ทธ๋ž˜ํ”„๋ฅผ ๊ตฌ์ถ•ํ•ฉ๋‹ˆ๋‹ค. ๊ฐ ์ˆจ๊ฒจ์ง„ ๊ฐœ๋…์— ํ•ด๋‹นํ•˜๋Š” ์ฒซ ๋ฒˆ์งธ ๋ฌธ์ œ๋ฅผ ์‹œํ€€์Šค์—์„œ ์ถ”์ถœํ•˜๊ณ , ๊ฐ ํ–‰์„ ๋ฐฉ๋ฌธํ•˜์—ฌ ํ•ด๋‹น ํ–‰์— ์—ฐ๊ฒฐ๋œ ๋ฌธ์ œ์™€ ๋‘ ๋ฒˆ์งธ ๋ฌธ์ œ๋ฅผ ์—ฐ๊ฒฐํ•ฉ๋‹ˆ๋‹ค. ์ด ์—ฐ๊ฒฐ์€ ์–ดํ…์…˜ ๊ฐ€์ค‘์น˜์— ๋น„๋ก€ํ•˜์—ฌ ์ •๋ ฌ๋ฉ๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์„ ํ†ตํ•ด ๋ฌธ์ œ ํƒœ๊ทธ๊ฐ€ ์ˆจ๊ฒจ์ง„ ๊ฐœ๋…์— ๋”ฐ๋ผ ์™„๋ฒฝํ•˜๊ฒŒ ๊ตฐ์ง‘ํ™”(clustering)๋ฉ๋‹ˆ๋‹ค.

ํฅ๋ฏธ๋กœ์šด ์ ์€ ์‹œํ€€์Šค์—์„œ ๋ฉ€๋ฆฌ ๋–จ์–ด์ ธ ์žˆ์ง€๋งŒ ๋™์ผํ•œ ๊ฐœ๋…์— ์†ํ•˜๋Š” ๋‘ ๊ฐ€์ง€ ์šด๋™์„ SAKT๋กœ ์‹๋ณ„ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์ฟผ๋ฆฌ ๋ฌธ์ œ 22๋Š” ์‹œํ€€์Šค์—์„œ ๋ฉ€๋ฆฌ ๋–จ์–ด์ ธ ์žˆ๋Š” ๋ฌธ์ œ 5์— ๊ฐ€์žฅ ๋งŽ์€ ๊ฐ€์ค‘์น˜๋ฅผ ํ• ๋‹นํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋‘ ๋ฌธ์ œ ๊ฐ„์˜ ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ๋ฉ€๋ฆฌ ๋–จ์–ด์ ธ ์žˆ์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ํ™•์ธ๋  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์„œ๋กœ ๊ด€๋ จ ์žˆ๋Š” ๋‘ ๋ฌธ์ œ๋Š” ๋†’์€ ์–ดํ…์…˜ ๊ฐ€์ค‘์น˜๋ฅผ ๊ฐ€์ง€๋ฉฐ, ํ•˜๋‚˜์˜ ๋ฌธ์ œ์— ๋Œ€ํ•œ ์„ฑ๊ณผ๋Š” ๋‹ค๋ฅธ ๋ฌธ์ œ์˜ ์„ฑ๊ณผ์— ์˜ํ–ฅ์„ ๋ฏธ์น  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ“Œ Ablation Study

๋…ผ๋ฌธ์—์„œ ablation study๋Š” ํŠน์ • ๋ชจ๋ธ์ด๋‚˜ ์‹œ์Šคํ…œ์˜ ์„ฑ๋Šฅ์— ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š” ๋‹ค์–‘ํ•œ ๊ตฌ์„ฑ ์š”์†Œ๋‚˜ ๊ธฐ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ์‹คํ—˜์  ์ ‘๊ทผ๋ฒ•์ž…๋‹ˆ๋‹ค. ์ด ์—ฐ๊ตฌ ๋ฐฉ๋ฒ•์€ ๋ชจ๋ธ์˜ ๊ฐ ๋ถ€๋ถ„์„ ์ฒด๊ณ„์ ์œผ๋กœ ์ œ๊ฑฐ(๋˜๋Š” "ํƒˆ๋ฝ")ํ•˜์—ฌ ๊ทธ ๋ถ€๋ถ„์ด ์ „์ฒด ์„ฑ๋Šฅ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์„ ๋ถ„์„ํ•ฉ๋‹ˆ๋‹ค.

ํ‘œ 4๋Š” d=200์ผ ๋•Œ ๋ชจ๋“  ๋ฐ์ดํ„ฐ ์„ธํŠธ์—์„œ ๊ธฐ๋ณธ SAKT ์•„ํ‚คํ…์ฒ˜์™€ ๋ชจ๋“  ๋ณ€ํ˜•์˜ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

๋‹ค์Œ์€ ๋ชจ๋ธ์˜ ์—ฌ๋Ÿฌ ๋ณ€ํ˜• ๊ฒฐ๊ณผ๋ฅผ ์ •๋ฆฌํ•œ ํ‘œ์™€ ๊ฒฐ๊ณผ์ž…๋‹ˆ๋‹ค.

์ˆ˜์ • ๋‚ด์šฉํšจ๊ณผ๊ด€์ฐฐ ๊ฒฐ๊ณผ
์œ„์น˜ ์ธ์ฝ”๋”ฉ ์—†์Œ (No Positional Encoding, PE)์œ„์น˜ ์ธ์ฝ”๋”ฉ์„ ์ œ๊ฑฐํ•จ. ํŠน์ • ์šด๋™์— ๋Œ€ํ•œ ํ•™์ƒ์˜ ์„ฑ๊ณผ๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋˜๋Š” ์–ดํ…์…˜ ๊ฐ€์ค‘์น˜๋Š” ์ƒํ˜ธ์ž‘์šฉ ์ž„๋ฒ ๋”ฉ์—๋งŒ ์˜์กดํ•˜๊ณ , ์‹œํ€€์Šค์—์„œ์˜ ์œ„์น˜๋Š” ๋ฌด์‹œ๋จ.ํฌ์†Œ ๋ฐ์ดํ„ฐ ์„ธํŠธ(ASSIST2009, ASSIST2015)์—์„œ๋Š” ๊ทธ ์˜ํ–ฅ์ด ๋œ ๋šœ๋ ทํ•˜๊ฒŒ ๋‚˜ํƒ€๋‚ฌ๊ณ , ๋ฐ€์ง‘ ๋ฐ์ดํ„ฐ ์„ธํŠธ(ASSISTChall, STATICS)์—์„œ๋Š” ๋” ๋‘๋“œ๋Ÿฌ์ง.
์ž”์ฐจ ์—ฐ๊ฒฐ ์—†์Œ (No Residual Connection, RC)์ž”์ฐจ ์—ฐ๊ฒฐ์„ ์ œ๊ฑฐํ•จ. ์ž”์ฐจ ์—ฐ๊ฒฐ์€ ์ €์ˆ˜์ค€ ํŠน์ง•(์ƒํ˜ธ์ž‘์šฉ ์ž„๋ฒ ๋”ฉ)์„ ์œ ์ง€ํ•˜๋Š” ๋ฐ ๋„์›€์„ ์คŒ.ASSIST2015์—์„œ๋Š” ์ž”์ฐจ ์—ฐ๊ฒฐ ์—†์ด ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋˜์—ˆ์œผ๋ฉฐ, ์ด๋Š” ๋ณต์žก์„ฑ์ด ๋‚ฎ์€ ์•„ํ‚คํ…์ฒ˜์—์„œ์˜ ์ œํ•œ๋œ ์ด์ ์„ ๋‚˜ํƒ€๋ƒ„.
๋“œ๋กญ์•„์›ƒ ์—†์Œ (No Dropout)๋“œ๋กญ์•„์›ƒ ์ •๊ทœํ™”๋ฅผ ์ œ๊ฑฐํ•จ. ๋“œ๋กญ์•„์›ƒ์€ ๊ณผ์ ํ•ฉ์„ ๋ฐฉ์ง€ํ•˜๋Š” ๋ฐ ๋„์›€์„ ์ฃผ๋ฉฐ, ํŠนํžˆ ํ›ˆ๋ จ ๋ ˆ์ฝ”๋“œ ์ˆ˜๊ฐ€ ์ ์€ ๋ชจ๋ธ์—์„œ ํšจ๊ณผ์ ์ž„.๋ฐ์ดํ„ฐ ์ˆ˜๊ฐ€ ์ ์€ ๋ฐ์ดํ„ฐ ์„ธํŠธ(ASSIST2009 ๋ฐ STATICS)์—์„œ ๊ณผ์ ํ•ฉ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์•„ ๋“œ๋กญ์•„์›ƒ์˜ ์—ญํ• ์ด ๋” ์ค‘์š”ํ•จ.
๋‹จ์ผ ํ—ค๋“œ (Single Head)๊ธฐ๋ณธ ์•„ํ‚คํ…์ฒ˜์—์„œ ์‚ฌ์šฉ๋˜๋Š” ๋‹ค์„ฏ ๊ฐœ์˜ ํ—ค๋“œ ๋Œ€์‹  ๋‹จ์ผ ํ—ค๋“œ๋งŒ ์‚ฌ์šฉํ•จ. ์—ฌ๋Ÿฌ ํ—ค๋“œ๋Š” ์„œ๋กœ ๋‹ค๋ฅธ ํ•˜์œ„ ๊ณต๊ฐ„์—์„œ ์–ดํ…์…˜ ๊ฐ€์ค‘์น˜๋ฅผ ์บก์ฒ˜ํ•˜์—ฌ ๋ชจ๋ธ์˜ ํ‘œํ˜„๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ด.๋ชจ๋“  ๋ฐ์ดํ„ฐ ์„ธํŠธ์—์„œ ๋‹จ์ผ ํ—ค๋“œ๋ฅผ ์‚ฌ์šฉํ•  ๋•Œ ์„ฑ๋Šฅ์ด ์ผ๊ด€๋˜๊ฒŒ ์ €ํ•˜๋จ.
๋ธ”๋ก ์—†์Œ (No Block)์…€ํ”„ ์–ดํ…์…˜ ๋ธ”๋ก์„ ์ œ๊ฑฐํ•จ. ๋‹ค์Œ ์šด๋™์˜ ์˜ˆ์ธก์ด ๋งˆ์ง€๋ง‰ ์ƒํ˜ธ์ž‘์šฉ์—๋งŒ ์˜์กดํ•˜๊ฒŒ ๋จ.์–ดํ…์…˜ ๋ธ”๋ก์ด ์—†์œผ๋ฉด ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ๋–จ์–ด์ ธ, ๊ทธ ์ค‘์š”์„ฑ์„ ๊ฐ•์กฐํ•จ.
2๊ฐœ ๋ธ”๋ก (2 Blocks)์…€ํ”„ ์–ดํ…์…˜ ๋ธ”๋ก์˜ ์ˆ˜๋ฅผ ๋‘ ๊ฐœ๋กœ ์ฆ๊ฐ€์‹œํ‚ด. ๋งค๊ฐœ๋ณ€์ˆ˜ ์ฆ๊ฐ€, ํ•˜์ง€๋งŒ ๋ฐ˜๋“œ์‹œ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์œผ๋กœ ์ด์–ด์ง€์ง€ ์•Š์Œ.๋ณต์žก์„ฑ์„ ์ถ”๊ฐ€ํ•ด๋„ ์„ฑ๋Šฅ์ด ๊ฐœ์„ ๋˜์ง€ ์•Š์•„, ๋ชจ๋ธ์ด ์ด๋ฏธ ํ•„์š”ํ•œ ์ƒํ˜ธ์ž‘์šฉ์„ ํšจ๊ณผ์ ์œผ๋กœ ์บก์ฒ˜ํ•˜๊ณ  ์žˆ์Œ์„ ๋‚˜ํƒ€๋ƒ„.

๐Ÿ“Œ Training efficiency

๊ทธ๋ฆผ 4๋Š” ํ›ˆ๋ จ ๋‹จ๊ณ„์—์„œ GPU์˜ ์‹คํ–‰ ์‹œ๊ฐ„์— ๋”ฐ๋ฅธ ๋‹ค์–‘ํ•œ ๋ฐฉ๋ฒ•์˜ ํšจ์œจ์„ฑ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

NVIDIA Titan V ์œ ํ˜•์˜ ๋‹จ์ผ GPU์—์„œ ์‹คํ—˜์„ ์ˆ˜ํ–‰

๊ณ„์‚ฐ ํšจ์œจ์„ฑ์„ ๋น„๊ตํ•˜๋ฉด SAKT๋Š” ํ•œ ์—ํฌํฌ์—์„œ 1.4์ดˆ๋งŒ ์†Œ๋น„ํ•˜๋Š”๋ฐ, ์ด๋Š” DKT+(65์ดˆ/์—ํฌํฌ)๊ฐ€ ์†Œ๋น„ํ•œ ์‹œ๊ฐ„๋ณด๋‹ค 46.42์ดˆ ์ ๊ณ , DKT(45์ดˆ/์—ํฌํฌ)๋ณด๋‹ค 32๋ฐฐ, DKVMN(26์ดˆ/์—ํฌํฌ)๋ณด๋‹ค 17.33๋ฐฐ ์ ์Šต๋‹ˆ๋‹ค.


๐Ÿ’ก Insight

SAKT๋Š” self-attention ๋งค์ปค๋‹ˆ์ฆ˜์„ ํ™œ์šฉํ•˜๋Š” ํŠธ๋žœ์Šคํฌ๋จธ๋ฅผ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค. ํ•ต์‹ฌ์€ ํ•™์ƒ์˜ ๋ฌธ์ œ ํ’€์ด ์ด๋ ฅ์„ ๋ฐ”ํƒ•์œผ๋กœ ํ˜„์žฌ ํ’€๊ณ  ์žˆ๋Š” ๋ฌธํ•ญ๊ณผ์˜ ์—ฐ๊ด€์„ฑ์„ ๊ณ ๋ คํ•˜์—ฌ ์ง€์‹ ์ถ”์ ์„ ํ•จ์œผ๋กœ์จ ๋ฐ์ดํ„ฐ ํฌ์†Œ์„ฑ ๋ฌธ์ œ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์ด์—ˆ๋Š”๋ฐ์š”.

DKVMN(Dynamic Key-Value Memory Networks for Knowledge Tracing) ํฌ์ŠคํŒ…์—์„œ๋„ ์–ธ๊ธ‰ํ–ˆ๋˜ ์›…์ง„์”ฝํฌ๋น… ์—๋“€ํ…Œํฌ ์—ฐ๊ตฌ์†Œ์—์„œ๋Š” DKVMN ๋ชจ๋ธ์„ ํ™œ์šฉํ•˜์—ฌ ๋ฉ”ํƒ€์š”์†Œ๋กœ ํ•„์š”ํ•œ ์ง€์‹๊ฐœ๋… ์ถ”์ถœ์„ ํ•˜๊ณ  SAKT ๋ชจ๋ธ์„ ํ™œ์šฉํ•˜์—ฌ ๊ฐœ๋ณ„ ๋ฌธํ•ญ์— ๋Œ€ํ•œ ์ •๋‹ต ํ™•๋ฅ ์„ ์˜ˆ์ธกํ•˜๋Š” ์ง€์‹ ์ถ”์  ๋ชจ๋ธ์„ ๊ตฌ์ถ•ํ•˜์˜€๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ๊ฐ ๋ชจ๋ธ์˜ ํŠน์ง•์„ ๊ณ ๋ คํ–ˆ์„ ๋•Œ ์ง€์‹ ์ถ”์  ํšจ๊ณผ๋ฅผ ๋†’์ด๊ธฐ ์ข‹์€ ์•„์ด๋””์–ด๋ผ๋Š” ์ƒ๊ฐ์ด ๋“ค์—ˆ๋Š”๋ฐ์š”. ์ž์„ธํ•œ ๊ตฌ์ถ• ๋ฐฉ๋ฒ•๊ณผ ํ™œ์šฉ ํ˜„ํ™ฉ์„ ํ™•์ธํ•ด ๋ณด๊ณ  ์‹ถ๊ธฐ๋„ ํ–ˆ์Šต๋‹ˆ๋‹ค.

๊ฐœ์ธ์ ์œผ๋กœ ํ˜„์žฌ๊นŒ์ง€ ๋ฆฌ๋ทฐํ•œ ๋…ผ๋ฌธ ์ค‘ SAKT ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ์— ๊ฐ€์žฅ ๋งŽ์€ ์‹œ๊ฐ„์„ ์Ÿ์€ ๊ฒƒ ๊ฐ™์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ์ง„ํ–‰ํ• ์ˆ˜๋ก ๋…ผ๋ฌธ ์ฝ๋Š” ๋ฐฉ๋ฒ•, ์ž˜ ์ •๋ฆฌํ•˜๋Š” ๋ฐฉ๋ฒ• ๋“ฑ์ด ์ตํ˜€์ง€๊ณ  ์žˆ์–ด ํ™•์‹คํžˆ ์„ฑ์žฅํ•˜๊ณ  ์žˆ๋‹ค๋Š” ์ƒ๊ฐ์ด ๋“ญ๋‹ˆ๋‹ค. ๋ฐœํ‘œ ์ˆœ์„œ๋Œ€๋กœ KT ๋…ผ๋ฌธ์„ ๋ฆฌ๋ทฐํ•˜๊ณ  ์žˆ๋Š”๋ฐ์š”. KT๋ฟ ์•„๋‹ˆ๋ผ AI ๋ถ„์•ผ ์ž์ฒด๊ฐ€ ์›Œ๋‚™ ๋นจ๋ฆฌ ๋ฐœ์ „ํ•˜๋Š” ๋งŒํผ ์—ฐ๊ตฌ ๊ฒฐ๊ณผ๋„ ๋น ๋ฅด๊ฒŒ ์—…๋ฐ์ดํŠธ ๋˜๊ณ  ์žˆ์–ด์„œ ๊ฐˆ ๊ธธ์ด ๋ฉ€๋‹ค๋Š” ์ƒ๊ฐ์ด ๋“ค๊ธฐ๋„ ํ•˜์ง€๋งŒ ๊ธฐ๋ฐ˜์„ ์ž˜ ๋‹ค์ง€๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•˜๋‹ค๋Š” ๋ฏฟ์Œ์„ ๊ฐ€์ง€๊ณ  ์žˆ๋Š” ๋งŒํผ ์ฐจ๊ทผ์ฐจ๊ทผํžˆ ๋‚ด๊ณต์„ ์Œ“์•„๊ฐ€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

ํ˜„์žฌ๋Š” ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ ์ค‘์‹ฌ์œผ๋กœ ์Šคํ„ฐ๋”” ์ค‘์ธ๋ฐ์š”. ์ด์— ๊ทธ์น˜์ง€ ์•Š๊ณ  ์ฝ”๋“œ ๊ตฌํ˜„ ๋ฐ ์ธ์‚ฌ์ดํŠธ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋ฐ์ดํ„ฐ์— ์ ํ•ฉํ•œ ๋ฐฉ๋ฒ•๋ก ์„ ์ฐพ์•„ ์ ์šฉํ•˜๋Š” ์—ญ๋Ÿ‰์„ ํ‚ค์›Œ ๋‚˜๊ฐ€๊ณ ์ž ํ•ฉ๋‹ˆ๋‹ค.


์ถ”์ฒœ ์ž๋ฃŒ

์ดํ•ด๊ฐ€ ์ž˜ ๋˜๋„๋ก ๋‚ด์šฉ๊ณผ ์‹œ๊ฐํ™” ์ž๋ฃŒ๋ฅผ ์ •๋ฆฌํ•ด ์ฃผ์…จ์Šต๋‹ˆ๋‹ค.
uoahvu(๋‚˜์—ฐ) ๋‹˜ SAKT ํฌ์ŠคํŒ…

๋˜ํ•œ ๋ณธ ๊ธ€์„ ์ฝ์œผ์‹œ๋ฉด์„œ Transformer์— ๋Œ€ํ•ด ์ œ๋Œ€๋กœ ํ•™์Šตํ•˜๊ธฐ๋ฅผ ํฌ๋งํ•˜์‹œ๋Š” ๋ถ„๋“ค์„ ์œ„ํ•ด ์ž˜ ์ž‘์„ฑ๋œ ๋ธ”๋กœ๊ทธ ์ž๋ฃŒ ์ถ”์ฒœ ๋“œ๋ฆฝ๋‹ˆ๋‹ค.
Tigris ๋‹˜ Transformer ์‹œ๋ฆฌ์ฆˆ
์ฝ”๋”ฉ ์˜คํŽ˜๋ผ ๋‹˜ Attention ์‹œ๋ฆฌ์ฆˆ

0๊ฐœ์˜ ๋Œ“๊ธ€