๋ํ์์์ ๊ฐ์ ๊ฐ์ง๋ ํผ๋๋ฐฑ์ ์ดํดํจ์ ์์ด์ ํ์์ ์ธ ๋จ๊ณ์. ํ์ฌ ์์คํ ์ ๊ฐ ๋ฐํ์์ ๋ง์ถคํ์ผ๋ก ๋ค๋ฃจ์ด์ฃผ์ง ์์. ๋ณธ ๋ ผ๋ฌธ์์๋ RNN์ ๊ธฐ๋ฐ์ผ๋ก ๋ํ ์ ์ฒด์์๊ฐ๋ณ ๋ฐํ์์ ์ํ๋ฅผ ์ถ์ ํ๊ณ ํด๋น ์ ๋ณด๋ฅผ ๊ฐ์ ๋ถ๋ฅ์ ํ์ฉํจ.
1) ๋ฐํ์
2) ์ด์ ๋ฐํ๋ค์ ๋ฌธ๋งฅ
3) ์ด์ ๋ฐํ์ ๊ฐ์
๋ฌธ๋งฅ์ ์ถ์ถํจ์ ์์ด์ ๋ฐํ์ + ์ฒญ์ทจ์์ ์ด์ ๋ฐํ๋ฅผ ๋ชจ๋ ๊ณ ๋ คํจ. 3๊ฐ์ Gated Recurrent Unit์ ํ์ฉํจ
=> ํด๋น GRU๋ฅผ ํตํด ์ด์ ๋ฐํ์ ๋ํ ์ ๋ณด๋ฅผ ํฌ๊ดํ๋ ๋ฌธ๋งฅ์ representation์ ์ป์ ์ ์์.
=> Emotion GRU, global GRU๋ ํจ๊ป ๋น์ฌ์ ๊ฐ์ ๊ด๊ณ ๋ชจ๋ธ๋ง์ ์ค์ํ ์ญํ ์ ํ๋ ๋ฐ๋ฉด, Party GRU๋ ๋์ผํ ๋น์ฌ์์ ์์ฐจ์ ์ธ ์ํ ์ฌ์ด์ ๊ด๊ณ๋ฅผ ๋ชจ๋ธ๋งํจ.
DialogueRNN์ ์์ 3๊ฐ์ง GRU๋ค์ด recursiveํ๊ฒ ์ฐ๊ฒฐ๋์ด ์์.
M ๊ฐ์ party, participant๊ฐ ์๋ค๊ณ ๊ฐ์ ํ์ ๋, ์ฃผ์ด์ง ๊ณผ์ ๋ emotion label์ ๋ฐํ์ ์์์ ๋ํด ์์ธกํ๋ ๊ฒ์.
Textual Feature Extraction: CNN์ ํ์ฉํ์ฌ ํด๋น feature ์ถ์ถ์ ์ํํจ. ํด๋น ๋ชจ๋ธ์ ํตํ์ฌ ๋ฐํ์ ๊ฐ์ ๋ ์ด๋ธ์ ๋ํด ํ์ตํจ.
Audio and Visual Feature Extraction: 3D-CNN๊ณผ openSMILE์ ํ์ฉํ์ฌ ์๊ฐ์ , ์ฒญ๊ฐ์ feature๋ ํจ๊ป ์ถ์ถํจ.
๋ณธ ๋ ผ๋ฌธ์ ๋ฐํ์ ๊ฐ์ ์ด 3๊ฐ์ง ์ฃผ์ ์์์ ์์กดํ๋ค๊ณ ๊ฐ์ ํจ.
1) the speaker ๋ฐํ์
2) the context given by preceding utterances ์ด์ ๋ฐํ์ ์ํ ๋งฅ๋ฝ
3) the emotion behind the preceding utterances ์ด์ ๋ฐํ์ ๊น๋ ค์๋ ๊ฐ์

GRU cell์ ํ์ฉ
1) Global State(Global GRU)

2) Party State(Party GRU)
3) Speaker Update(Speaker GRU)

4) Listener Update

5) Emotional Representation(Emotion GRU)

Emotion Classification

์์ ๊ฐ์ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํจ.

๋ฒ ์ด์ค๋ผ์ธ ๋ชจ๋ธ๊ณผ์ ๋น๊ต ๊ฒฐ๊ณผ๋ ์์ ๊ฐ์.