๐Ÿ™ƒFew-Shot Adversarial Learning of Realistic Neural Talking Head Models

ukkikkiaiยท2024๋…„ 5์›” 27์ผ

Euron ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ

๋ชฉ๋ก ๋ณด๊ธฐ
11/13

โฐ 2019.05

Abstract

์ตœ๊ทผ์˜ ์—ฐ๊ตฌ๋“ค์€ Convolution NN์„ ํ›ˆ๋ จํ•˜์—ฌ ๋งค์šฐ ํ˜„์‹ค์ ์ธ ์ธ๊ฐ„ ๋จธ๋ฆฌ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๋ณด์ด๊ณ  ์žˆ์Œ. ์ด๋Ÿฌํ•œ ๊ฐœ์ธํ™”๋œ talking head model์„ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด์„œ๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ ํ•œ ์ธ๋ฌผ์˜ ๋งŽ์€ ์ด๋ฏธ์ง€ ๋ฐ์ดํ„ฐ๋ฅผ ํ•„์š”๋กœ ํ•จ. ๊ทธ๋Ÿฌ๋‚˜ ์‹ค์šฉ์ ์ธ ์ƒํ™ฉ์—์„œ๋Š” ๋‹จ ํ•œ ์žฅ์˜ ์ด๋ฏธ์ง€๋กœ๋„ ๊ฐœ์ธํ™”๋œ talking head model์„ ํ•™์Šตํ•ด์•ผํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ์žˆ์Œ.

๋ณธ ๋…ผ๋ฌธ์˜ ์‹œ์Šคํ…œ์€ ๋Œ€๊ทœ๋ชจ ๋น„๋””์˜ค ๋ฐ์ดํ„ฐ์…‹์„ ํ†ตํ•˜์—ฌ ๋ฉ”ํƒ€ ํ•™์Šต์„ ์ˆ˜ํ–‰ํ•œ ํ›„, ์ด์ „์— ํ•™์Šตํ•˜์ง€ ์•Š์•˜๋˜ ์‚ฌ๋žŒ๋“ค์˜ ์•„์ฃผ ์ ์€ ์ˆ˜์˜ ์ด๋ฏธ์ง€ ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ talking head model์„ ์ถœ๋ ฅํ•  ์ˆ˜ ์žˆ์Œ. ๐Ÿ’ก Generator์™€ Discriminator (Adversarial ๊ตฌ์กฐ)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ, G ์™€ D๋ฅผ ํŠน์ • ์ด๋ˆ”ใ„น์— ๋งž๊ฒŒ ์ดˆ๊ธฐํ™”ํ•˜์—ฌ ์ˆ˜๋ฐฑ๋งŒ ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ํŠœ๋‹ํ•ด์•ผํ•˜๋Š” ์ƒํ™ฉ์—์„œ๋„ ๋ช‡ ์žฅ์˜ ์ด๋ฏธ์ง€๋กœ ๋น ๋ฅด๊ฒŒ ํ•™์Šต์ด ๊ฐ€๋Šฅํ•จ.

1. Introduction

๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ํŠน์ • ๊ฐœ์ธ์˜ ํ‘œ์ •๊ณผ ๋งํ•˜๋Š” ๋ชจ์Šต์„ ํ•ฉ์„ฑํ•  ์ˆ˜ ์žˆ๋Š” 'talking head model => THM'์„ ๋งŒ๋“œ๋Š” ๊ณผ์ œ๋ฅผ ๋‹ค๋ฃธ. ํŠนํžˆ ์–ผ๊ตด์˜ ๋žœ๋“œ๋งˆํฌ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์‚ฌ์‹ค์ ์ธ ๊ฐœ์ธํ™”๋œ THM ์ด๋ฏธ์ง€๋ฅผ ํ•ฉ์„ฑํ•˜๋Š” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•จ.

โžก๏ธ ๋ณธ ๊ธฐ์ˆ ์€ ํ™”์ƒํšŒ์˜, ๋ฉ€ํ‹ฐํ”Œ๋ ˆ์ด์–ด ๊ฒŒ์ž„, ํŠน์ˆ˜ ํšจ๊ณผ ์‚ฐ์—… ๋“ฑ์—์„œ ์‹ค์šฉ์ ์ธ ์‘์šฉ์ด ๊ฐ€๋Šฅํ•  ๊ฒƒ์œผ๋กœ ๋ณด์ž„.

์‚ฌ์‹ค์ ์ธ THM ์‹œํ€€์Šค๋ฅผ ํ•ฉ์„ฑํ•˜๋Š” ๊ฒƒ์€ ๋‘ ๊ฐ€์ง€ ์–ด๋ ค์›€์ด ์žˆ์Œ.

๐Ÿšจ 1. ์ธ๊ฐ„์˜ ๋จธ๋ฆฌ๋Š” ํฌํ† ๋ฉ”ํŠธ๋ฆญ/๊ธฐํ•˜ํ•™์ /์šด๋™ํ•™์  ๋ณต์žก๋„๊ฐ€ ๋†’์Œ; ์–ผ๊ตด๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์ž… ์•ˆ, ๋จธ๋ฆฌ์นด๋ฝ, ์˜ท ๋“ฑ๋„ ๋ชจ๋ธ๋งํ•ด์•ผํ•˜๊ธฐ ๋•Œ๋ฌธ์ž„.

๐Ÿšจ 2. ์ธ๊ฐ€์˜ ์‹œ๊ฐ ์‹œ์Šคํ…œ์€ ์ž‘์€ ์‹ค์ˆ˜์—๋„ ๋ฏผ๊ฐํ•˜์—ฌ, THM์—์„œ์˜ ์ž‘์€ ์˜ค๋ฅ˜๋„ ์‰ฝ๊ฒŒ ๊ฐ์ง€ํ•ด๋ฒ„๋ฆผ. (๋ถˆ์พŒํ•œ ๊ณจ์งœ๊ธฐ ํšจ๊ณผ)

๐Ÿ™ƒ Uncanny Valley Effect(๋ถˆ์พŒํ•œ ๊ณจ์งœ๊ธฐ ํšจ๊ณผ): ์ธ๊ฐ„๊ณผ ๋งค์šฐ ํก์‚ฌํ•˜์ง€๋งŒ ์–ด๋”˜๊ฐ€ ์™„๋ฒฝํ•˜์ง€๋Š” ๋ชปํ•œ ๋กœ๋ด‡, ์• ๋‹ˆ๋ฉ”์ด์…˜ ์บ๋ฆญํ„ฐ๋ฅผ ๋ณผ ๋•Œ ์‚ฌ๋žŒ๋“ค์ด ๋А๋ผ๋Š” ๋ถˆ์พŒ๊ฐ, ์ด์งˆ๊ฐ.

๐ŸŒฟ ํ•ด๋‹น ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์—ฌ๋Ÿฌ ์—ฐ๊ตฌ๋“ค์€ ๋‹จ์ผ, ๋‹ค์ˆ˜์˜ ์ •์  ํ”„๋ ˆ์ž„์„ ๋ณ€ํ˜•ํ•˜์—ฌ ๋จธ๋ฆฌ ์‹œํ€€์Šค๋ฅผ ํ•ฉ์„ฑํ•˜๋Š” ๋ฐฉ์‹์„ ์ œ์•ˆํ•จ.
โš ๏ธ ๊ทธ๋Ÿฌ๋‚˜ ์ด ๋ฐฉ์‹์€ ์›€์ง์ž„, ํšŒ์ „, ๊ฐ€๋ ค์ง ๋“ฑ์„ ์ฒ˜๋ฆฌํ•˜๋Š”๋ฐ ์žˆ์–ด์„œ ํ•œ๊ณ„๊ฐ€ ์žˆ์Œ.

๐ŸŒฟ ์ตœ๊ทผ์—๋Š” Adversarial ํ•™์Šต์„ ์‚ฌ์šฉ
โš ๏ธ ์ˆ˜๋ฐฑ๋งŒ ๊ฐœ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜์™€ ๋Œ€๊ทœ๋ชจ ์‚ฌ์ง„ ๋ฐ์ดํ„ฐ์…‹ ํ•„์š”

๐Ÿ’ก ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ๋ช‡ ์žฅ์˜ ์‚ฌ์ง„(Few-shot)๊ณผ ์ œํ•œ๋œ ํ›ˆ๋ จ ์‹œ๊ฐ„์„ THM์„ ๋งŒ๋“œ๋Š” ์‹œ์Šคํ…œ์„ ๊ณ ์•ˆํ•จ.
โžก๏ธ ๋‹จ์ผ ์‚ฌ์ง„๋งŒ์œผ๋กœ๋„ ํ•ฉ๋ฆฌ์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ์ƒ์„ฑ์ด ๊ฐ€๋Šฅํ•จ.

๐Ÿ™ƒ Adversarial ํ›ˆ๋ จ๊ณผ ์กฐ๊ฑด๋ถ€ ํŒ๋ณ„์ž ๋“ฑ์˜ ์•„์ด๋””์–ด๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๋ฉ”ํƒ€ ํ•™์Šต ๋‹จ๊ณ„์—์„œ ์ ์‘ํ˜• ์ธ์Šคํ„ด์Šค ์ •๊ทœํ™” ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์‚ฌ์šฉํ•จ.

  • MAML: ๋ฉ”ํƒ€ ํ•™์Šต์œผ๋กœ ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜๊ธฐ์˜ ์ดˆ๊ธฐ ์ƒํƒœ๋ฅผ ์–ป์Œ์œผ๋กœ์„œ ๋ช‡ ๊ฐ€์ง€ ํ›ˆ๋ จ ์ƒ˜ํ”Œ๋งŒ์œผ๋กœ๋„ ๋ณด์ด์ง€ ์•Š๋Š” ํด๋ž˜์Šค๋กœ ๋น ๋ฅด๊ฒŒ ์ˆ˜๋ ด์ด ๊ฐ€๋Šฅํ•จ.

โžก๏ธ ์ด์™€ ๋น„์Šทํ•˜๊ฒŒ, Adversarial fine-tuning์„ ๋ฉ”ํƒ€-ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ๋กœ๋ถ€ํ„ฐ ์ดˆ๊ธฐ ์ƒํƒœ๋ฅผ ์–ป์€ ํ›„์— ์ ์šฉํ•จ.

๐Ÿ“Œ ๋ฉ”ํƒ€ ํ•™์Šต: ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์ž์ฒด๋ฅผ ํ•™์Šตํ•˜๋Š” ๊ฒƒ.

3. Methods

3.1. Architecture and notation

โš™๏ธ ๋ฉ”ํƒ€-ํ•™์Šต ๋‹จ๊ณ„์—์„œ๋Š” ์„œ๋กœ ๋‹ค๋ฅธ ์‚ฌ๋žŒ๋“ค์˜ THM์„ ํฌํ•จํ•˜๋Š” M๊ฐœ์˜ ๋น„๋””์˜ค ์‹œํ€€์Šค๊ฐ€ ์žˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•จ. xi๋Š” i๋ฒˆ์งธ ๋น„๋””์˜ค ์‹œํ€€์Šค์ด๋ฉฐ, xi(t)๋Š” t๋ฒˆ์งธ ํ”„๋ ˆ์ž„์„ ๋‚˜ํƒ€๋ƒ„.

+) ํ•™์Šต/ํ…Œ์ŠคํŠธ ๋™์•ˆ ๋ชจ๋“  ํ”„๋ ˆ์ž„์— ๋Œ€ํ•œ ์–ผ๊ตด ๋žœ๋“œ๋งˆํฌ์˜ ์œ„์น˜๋ฅผ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•จ.

โžก๏ธ ์ด๋ฅผ ์–ป๊ธฐ ์œ„ํ•ด ์‚ฌ์ „์— ์ œ์ž‘๋œ ์–ผ๊ตด ์ •๋ ฌ ์ฝ”๋“œ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์–ผ๊ตด์„ ์„ธ ์ฑ„๋„ ์ด๋ฏธ์ง€๋กœ ๋‚˜ํƒ€๋ƒ„. yi(t)๋Š” xi(t)์— ๋Œ€ํ•œ ๊ฒฐ๊ณผ ๋žœ๋“œ๋งˆํฌ์ž„.

1๏ธโƒฃ ์ž„๋ฒ ๋” E(xi(s), yi(s); ฯ†): ๋น„๋””์˜ค ํ”„๋ ˆ์ž„ xi(s)์™€ ๊ด€๋ จ๋œ ๋žœ๋“œ๋งˆํฌ ์ด๋ฏธ์ง€ yi(s)๋ฅผ ์ทจํ•˜๊ณ , ์ด๋Ÿฌํ•œ ์ž…๋ ฅ์„ N-์ฐจ์› ๋ฒกํ„ฐ eห†i(s)๋กœ ๋งคํ•‘

2๏ธโƒฃ ์ƒ์„ฑ๊ธฐ G(yi(t), eห†i; ฯˆ, P): ์ž„๋ฒ ๋”๊ฐ€ ๋ณผ ์ˆ˜ ์—†๋Š” ๋น„๋””์˜ค ํ”„๋ ˆ์ž„์— ๋Œ€ํ•œ ๋žœ๋“œ๋งˆํฌ ์ด๋ฏธ์ง€ yi(t)์™€ ์˜ˆ์ธก๋œ ๋น„๋””์˜ค ์ž„๋ฒ ๋”ฉ eห†i๋ฅผ ์ทจํ•˜๊ณ , ํ•ฉ์„ฑ๋œ ๋น„๋””์˜ค ํ”„๋ ˆ์ž„ xห†i(t)์„ ์ถœ๋ ฅ

3๏ธโƒฃ ํŒ๋ณ„๊ธฐ D(xi(t), yi(t), i; ฮธ,W, w0, b): ํŒ๋ณ„๊ธฐ๋Š” ์ž…๋ ฅ ํ”„๋ ˆ์ž„ xi(t)์ด i๋ฒˆ์งธ ๋น„๋””์˜ค ์‹œํ€€์Šค์˜ ์‹ค์ œ ์ž…๋ ฅ ํฌ์ฆˆ yi(t)์™€ ์ผ์น˜ํ•˜๋Š”์ง€ ์—ฌ๋ถ€๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ๋‹จ์ผ ์Šค์นผ๋ผ(์‹ค์ œ ์ ์ˆ˜) r์„ ์˜ˆ์ธก

3.2. Meta-learning stage

โœ… ์—ฐ๊ตฌ์˜ ์ ‘๊ทผ ๋ฐฉ์‹: ๋ฉ”ํƒ€-ํ•™์Šต ๋‹จ๊ณ„์—์„œ๋Š” ๋ชจ๋“  ์„ธ ๊ฐœ์˜ ๋„คํŠธ์›Œํฌ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜๊ฐ€ Adversarial ๋ฐฉ์‹์œผ๋กœ ํ•™์Šต(K = 8๋กœ ์„ค์ •) ์—ํ”ผ์†Œ๋“œ๋ฅผ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ํ•จ์œผ๋กœ์จ ์ด๋ฃจ์–ด์ง.

โžก๏ธ ๊ฐ ์—ํ”ผ์†Œ๋“œ์—์„œ๋Š” ํ›ˆ๋ จ ๋น„๋””์˜ค ์‹œํ€€์Šค i์™€ ํ•ด๋‹น ์‹œํ€€์Šค์—์„œ ๋‹จ์ผ ํ”„๋ ˆ์ž„ t๋ฅผ ๋ฌด์ž‘์œ„๋กœ ์„ ํƒํ•จ. t ์™ธ์—๋„ ๋™์ผํ•œ ์‹œํ€€์Šค์—์„œ ์ถ”๊ฐ€์ ์ธ K๊ฐœ์˜ ํ”„๋ ˆ์ž„ s1, s2, ... , sK๋ฅผ ๋ฌด์ž‘์œ„๋กœ ์„ ํƒํ•จ.

๐Ÿ“Œ ์ด๋Ÿฌํ•œ ์ถ”๊ฐ€ ํ”„๋ ˆ์ž„๋“ค์— ๋Œ€ํ•ด ์˜ˆ์ธก๋œ ์ž„๋ฒ ๋”ฉ eห†i(sk)๋ฅผ ๋‹จ์ˆœ ํ‰๊ท ํ•˜์—ฌ i๋ฒˆ์งธ ๋น„๋””์˜ค ์ž„๋ฒ ๋”ฉ์˜ ์ถ”์ •์น˜ eห†i๋ฅผ ๊ณ„์‚ฐ

  • eห†i = 1/K * ฮฃ(E(xi(sk), yi(sk); ฯ†))

๐Ÿ“Œ์ถ”์ • ์ž„๋ฒ ๋”ฉ eห†i๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ t๋ฒˆ์งธ ํ”„๋ ˆ์ž„์˜ ์žฌ๊ตฌ์„ฑ xห†i(t)์„ ๊ณ„์‚ฐ

  • xห†i(t) = G(yi(t), eห†i; ฯˆ, P). (2)

๐Ÿ“Œ ์ž„๋ฒ ๋”์™€ ์ƒ์„ฑ๊ธฐ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜๋Š” ๋ชฉ์  ํ•จ์ˆ˜๋ฅผ ์ตœ์†Œํ™”ํ•˜๊ธฐ ์œ„ํ•ด ์ตœ์ ํ™”
โžก๏ธ ๋ชฉ์  ํ•จ์ˆ˜๋Š” ์ฝ˜ํ…์ธ  ํ•ญ๋ชฉ, ์ ๋Œ€์  ํ•ญ๋ชฉ ๋ฐ ์ž„๋ฒ ๋”ฉ ์ผ์น˜ ํ•ญ๋ชฉ์œผ๋กœ ๊ตฌ์„ฑ

  • L(ฯ†, ฯˆ,P, ฮธ,W, w0, b) = LCNT(ฯ†, ฯˆ, P) + LADV(ฯ†, ฯˆ, P, ฮธ,W, w0, b) + LMCH(ฯ†,W).

+) ์—ฌ๊ธฐ์„œ ์ฝ˜ํ…์ธ  ์†์‹ค ํ•ญ๋ชฉ LCNT๋Š” ํผ์…‰์ธ  ์œ ์‚ฌ๋„ ์ธก์ • ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ ์‹ค์ œ ์ด๋ฏธ์ง€ xi(t)์™€ ์žฌ๊ตฌ์„ฑ xห†i(t) ์‚ฌ์ด์˜ ๊ฑฐ๋ฆฌ๋ฅผ ์ธก์ •ํ•จ.

๐Ÿ“Œ ์•„๋ž˜์˜ ๋ชฉ์  ํ•จ์ˆ˜๋Š” ๊ฐ€์งœ ์˜ˆ์ œ xห†i(t)์™€ ์‹ค์ œ ์˜ˆ์ œ xi(t)์˜ ์‹ค์ œ์„ฑ์„ ๋น„๊ตํ•œ ํ›„, ํŒ๋ณ„๊ธฐ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ์—…๋ฐ์ดํŠธํ•˜์—ฌ ๊ฐ€์งœ ์˜ˆ์ œ์˜ ์ ์ˆ˜๋ฅผ -1 ์ดํ•˜๋กœ, ์‹ค์ œ ์˜ˆ์ œ์˜ ์ ์ˆ˜๋ฅผ +1 ์ด์ƒ์œผ๋กœ ๋ฐ€์–ด๋ƒ„.

โžก๏ธ ํ›ˆ๋ จ์€ ์ž„๋ฒ ๋”์™€ ์ƒ์„ฑ๊ธฐ๋ฅผ ๊ต๋Œ€๋กœ ์—…๋ฐ์ดํŠธํ•˜๋ฉฐ, ์ด ๊ณผ์ •์—์„œ LCNT, LADV ๋ฐ LMCH ์†์‹ค์„ ์ตœ์†Œํ™”ํ•˜๊ณ  ํŒ๋ณ„๊ธฐ์˜ ์†์‹ค์ธ LDSC๋ฅผ ์ตœ์†Œํ™”ํ•˜๋„๋ก ํ•จ.

โžก๏ธ ์ผ์ „์— ๋ฐฐ์› ๋˜ GAN๊ณผ ๋น„์Šทํ•œ ๊ตฌ์กฐ๋กœ Discriminator์˜์˜ x^i์— ๋Œ€ํ•œ ํŒ๋ณ„์€ maximizeํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ํ•™์Šต์„ ์ง„ํ–‰ํ•จ.

3.3. Few-shot learning by fine-tuning

๋ฉ”ํƒ€ ํ•™์Šต์ด ์ˆ˜๋ ดํ•œ ํ›„, ํ•ฉ์„ฑ์€ ๋žœ๋“œ๋งˆํฌ ์ด๋ฏธ์ง€์— ์กฐ๊ฑด๋ถ€๋กœ ์ด๋ฃจ์–ด์ง.

โžก๏ธ ์ด ์‹œ์Šคํ…œ์€ ๋ช‡ ์žฅ์˜ ํ›ˆ๋ จ ์ด๋ฏธ์ง€ (์˜ˆ: ๋™์ผํ•œ ๋น„๋””์˜ค์˜ T ํ”„๋ ˆ์ž„)์™€ ํ•ด๋‹น ๋žœ๋“œ๋งˆํฌ ์ด๋ฏธ์ง€๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ ํ•™์Šต๋จ.

  • ์ƒˆ๋กœ์šด ์‹œํ€€์Šค๋ฅผ ์œ„ํ•œ ์ž„๋ฒ ๋”ฉ์„ ์ถ”์ •ํ•˜๊ธฐ ์œ„ํ•ด ๋ฉ”ํƒ€ ํ•™์Šต๋œ ์ž„๋ฒ ๋”๋ฅผ ์‚ฌ์šฉ + ์ƒˆ๋กœ์šด ๋žœ๋“œ๋งˆํฌ ์ด๋ฏธ์ง€์— ํ•ด๋‹นํ•˜๋Š” ํ”„๋ ˆ์ž„์„ ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•ด ์ถ”์ •๋œ ์ž„๋ฒ ๋”ฉ๊ณผ ๋ฉ”ํƒ€ ํ•™์Šต๋œ ์ƒ์„ฑ๊ธฐ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ์ ์šฉ

โš ๏ธ ์ด ๋ฐฉ๋ฒ•์œผ๋กœ ์ƒ์„ฑ๋œ ์ด๋ฏธ์ง€๋Š” ๊ทธ๋Ÿด๋“ฏํ•˜๊ณ  ํ˜„์‹ค์ ์ด์ง€๋งŒ, ๋†’์€ ๊ฐœ์ธํ™” ์ •๋„๋ฅผ ๋ชฉํ‘œ๊นŒ์ง€๋Š” ๋ฏธ์น˜์ง€ ๋ชปํ•จ.

๐Ÿ’ก ์ด ์ฐจ์ด๋Š” ๋ฏธ์„ธ ์กฐ์ •(fine-tuning) ๋‹จ๊ณ„๋ฅผ ํ†ตํ•ด ๋ณด์™„!

  • Fine tuning์€ ๋‹จ์ผ ๋น„๋””์˜ค ์‹œํ€€์Šค์™€ ์†Œ์ˆ˜์˜ ํ”„๋ ˆ์ž„์„ ์‚ฌ์šฉํ•˜๋Š” ๋ฉ”ํƒ€ ํ•™์Šต์˜ ๋‹จ์ˆœํ™” ๋ฒ„์ „์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ์Œ.

โœ… ์ƒ์„ฑ๊ธฐ G(y(t), eห†NEW; ฯˆ, P) โžก๏ธ G0(y(t); ฯˆ, ฯˆ0)๋กœ ๋Œ€์ฒด

  • ์ƒ์„ฑ๊ธฐ๋Š” ๋žœ๋“œ๋งˆํฌ ์ด๋ฏธ์ง€ y(t)๋ฅผ ๋ฐ›์•„ ํ•ฉ์„ฑ๋œ ํ”„๋ ˆ์ž„ xห†(t)๋ฅผ ์ถœ๋ ฅํ•จ. ์ƒ์„ฑ๊ธฐ ํŒŒ๋ผ๋ฏธํ„ฐ ฯˆ0๋Š” ์ด์ œ ์‚ฌ๋žŒ ์ผ๋ฐ˜ ํŒŒ๋ผ๋ฏธํ„ฐ ฯˆ์™€ ํ•จ๊ป˜ ์ง์ ‘ ์ตœ์ ํ™”๋จ.

+) ๋ฉ”ํƒ€ ํ•™์Šต ๋‹จ๊ณ„์—์„œ ์ถ”์ •๋œ ์ž„๋ฒ ๋”ฉ eห†NEW์™€ ํ”„๋กœ์ ์…˜ ๋งคํŠธ๋ฆญ์Šค P๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ฯˆ0๋ฅผ ์ดˆ๊ธฐํ™”

โœ… ํŒ๋ณ„๊ธฐ D0(x(t), y(t); ฮธ, w0, b)๋Š” ์ด์ „๊ณผ ๊ฐ™์ด ์‹ค์ œ์„ฑ ์ ์ˆ˜๋ฅผ ๊ณ„์‚ฐ

  • ConvNet ๋ถ€๋ถ„ V(x(t), y(t); ฮธ)์˜ ํŒŒ๋ผ๋ฏธํ„ฐ ฮธ์™€ ๋ฐ”์ด์–ด์Šค b๋Š” ๋ฉ”ํƒ€ ํ•™์Šต ๋‹จ๊ณ„์˜ ๊ฒฐ๊ณผ๋กœ ์ดˆ๊ธฐํ™”

  • ๋ฏธ์„ธ ์กฐ์ • ๋‹จ๊ณ„์—์„œ๋Š” ํŒ๋ณ„๊ธฐ์˜ ํ˜„์‹ค์„ฑ ์ ์ˆ˜๊ฐ€ ๋ฉ”ํƒ€ ํ•™์Šต ๋‹จ๊ณ„์™€ ์œ ์‚ฌํ•˜๊ฒŒ ์–ป์–ด์ง.

  • ๋Œ€๋ถ€๋ถ„์˜ ๊ฒฝ์šฐ fine-tuned๋œ ์ƒ์„ฑ๊ธฐ๊ฐ€ ๋” ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Œ!

4. Experiments

โš™๏ธ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ๋ฉ”ํƒ€ ํ•™์Šต ๋‹จ๊ณ„์—์„œ ๋ณด์ง€ ๋ชปํ–ˆ๋˜ ์ธ๋ฌผ์— ๋Œ€ํ•ด์„œ ํ‰๊ฐ€๋ฅผ ์ˆ˜ํ–‰ํ•จ.

  • ํ‰๊ฐ€๋ฅผ ์œ„ํ•˜์—ฌ VoxCeleb ํ…Œ์ŠคํŠธ์…‹์—์„œ 50๊ฐœ์˜ ๋น„๋””์˜ค๋ฅผ ๊ท ์ผํ•˜๊ฒŒ ์ƒ˜ํ”Œ๋ง, ๊ฐ ๋น„๋””์˜ค์— ๋Œ€ํ•ด 32๊ฐœ์˜ holdout ํ”„๋ ˆ์ž„์„ ์„ ํƒํ•œ ํ›„์— ๋น„๊ต ์ง€ํ‘œ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ƒ์„ฑ๋œ ์ด๋ฏธ์ง€์˜ ํฌํ† ๋ฆฌ์–ผ๋ฆฌ์ฆ˜, ๊ทธ๋ฆฌ๊ณ  ์‹ ์›์˜ ๋ณด์กด์„ฑ์„ ์ธก์ •ํ–ˆ์Œ.

+) ์‚ฌ์šฉํ•œ ์ง€ํ‘œ: FID, SSIM, CSIM

  • ์œ„์˜ ํ‘œ์—์„œ ๋‚˜ํƒ€๋‚œ ๊ฒƒ์ฒ˜๋Ÿผ X2Face, Pix2pixHD์™€ ๋น„๊ตํ•˜์˜€์„ ๋•Œ ์œ ์‚ฌ์„ฑ ์ง€ํ‘œ์—์„œ ๊ธฐ์ค€ ๋ชจ๋ธ๋“ค์ด ๋Šฅ๊ฐ€๋ฅผ ํ•˜๋‚˜, ํฐ ์‹ ์› ๋ถˆ์ผ์น˜์„ฑ์„ ๋ณด์˜€์Œ. โžก๏ธ ๋ถˆ์พŒํ•œ ๊ณจ์งœ๊ธฐ ์•„ํ‹ฐํŒฉํŠธ ์ƒ์„ฑํ•œ๋‹ค๋Š” ์˜๋ฏธ

    ๐Ÿ™ƒ์•„๋ž˜๋Š” ์‹ ๊ธฐํ–ˆ๋˜ ๋‹ค์–‘ํ•œ ๋ชจ๋ธ์˜ ๊ฒฐ๊ณผ๊ฐ’๋“ค!

5. Conclustion

๋ณธ ์—ฐ๊ตฌ๋Š” ์ƒˆ๋กœ์šด ๋ชจ๋ธ์„ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด 32์žฅ์˜ ์ด๋ฏธ์ง€๋กœ ํ›ˆ๋ จ๋œ ๋ชจ๋ธ์€ ์™„๋ฒฝํ•œ ํ˜„์‹ค์„ฑ๊ณผ ๊ฐœ์ธํ™” ์ ์ˆ˜๋ฅผ ๋‹ฌ์„ฑํ•˜์˜€์Œ. ์ฃผ์š” ํ•œ๊ณ„๋Š” ํ‘œ์ • ํ‘œํ˜„๊ณผ ๋žœ๋“œ๋งˆํฌ ์ ์‘ ๋ถ€์กฑ์ธ๋ฐ, ๋žœ๋“œ๋งˆํฌ๋Š” ์‹œ์„ ์„ ํ‘œํ˜„ํ•˜์ง€ ๋ชปํ•จ. ์‹œ์„ ์„ ํฌํ•จํ•˜๋ ค๊ณ  ํ•˜๋ฉด ๋ˆˆ์— ๋„๋Š” ๋ถˆ์ผ์น˜๊ฐ€ ๋ฐœ์ƒํ•จ.

๐Ÿ™ƒ ์—ฌ๋Ÿฌ ์‘์šฉ ํ”„๋กœ๊ทธ๋žจ์„ ํ†ตํ•˜์—ฌ ์‚ฌ๋žŒ์˜ ํ˜•ํƒœ๋ฅผ ์กฐ์ž‘ํ•  ํ•„์š”๊ฐ€ ์—†๋Š” ๋ฐฉ์•ˆ์„ ์ œ์‹œํ•˜์˜€๋‹ค๋Š” ์ ์—์„œ ์ ‘๊ทผ ๋ฐฉ์‹์ด ๋†’์€ ํ˜„์‹ค์  ํ•ด๊ฒฐ์ฑ…์ด ๋  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ž„.


๐Ÿต ๋žœ๋“œ๋งˆํฌ๊ฐ€์‹œ์„ ์„ ํ‘œํ˜„ํ•˜์ง€ ๋ชปํ•œ๋‹ค๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ๋‹ค๊ณ  ํ–ˆ๋Š”๋ฐ, ์ฒซ ๋ฒˆ์งธ ์‚ฌ์ง„์„ ๋ณด๋ฉด ๋žœ๋“œ๋งˆํฌ์— ๋ˆˆ๋™์ž๊ฐ€ ์—†์Œ. ์‹œ์„ ์„ ํฌํ•จํ–ˆ์„ ๋•Œ ๋ถˆ์ผ์น˜๊ฐ€ ๋ฐœ์ƒํ•œ๋‹ค๊ณ  ํ–ˆ๋Š”๋ฐ, ๋ˆˆ๋™์ž๋ฅผ ๊ทธ๋ฆฌ์ง€ ์•Š์€ ์ด์œ ๊ฐ€ ์ด๋Ÿฌํ•œ ๊ฒƒ์ธ์ง€ ๊ถ๊ธˆํ•ด์ง.

profile
์œ ์ •๋ฏผ

0๊ฐœ์˜ ๋Œ“๊ธ€