๐ป ๋ฅ๋ฌ๋์ ๊น์ด ์๋ ์ดํด๋ฅผ ์ํ ๋จธ์ ๋ฌ๋ ๊ฐ์ 11๊ฐ
๐ Various Types of Supervision in Machine Learning
๐ Weak Supervision (Part I)
๐ Snorkel โ A Weak Supervision System
Weak supervision๊ณผ Semi-supervised learning์ ๊ฐ๋ ์ ์ ๋๋ก ์ดํดํ๊ณ ์ถ์ด์ ์์ ๊ฐ์์ ํฌ์คํ ์ ์ฐธ๊ณ ํ์ฌ ๊ณต๋ถํ์์ต๋๋ค.
์ด๋ฒ ๊ฒ์๊ธ์ ๊ฐ๋ ๊ณผ ์ฉ์ด๋ฅผ ์ ๋ฆฌํ๋ ์ ๋๋ก ํฌ์คํ ํ ์์ ์ ๋๋ค.
์ ๊ฐ ์๋ชป ์ดํดํ์ฌ ๋ด์ฉ์ ์ค๋ฅ๊ฐ ์์ ์ ์์ต๋๋ค. ๊ทธ๋ด ๊ฒฝ์ฐ ๋๊ธ๋ก ์๋ ค์ฃผ์๋ฉด ๊ฐ์ฌํ๊ฒ ์ต๋๋ค.
๋จธ์ ๋ฌ๋ ๋ชจ๋ธ์ ํ๋ จํ๊ธฐ ์ํด ๋ค์ํ ์ข ๋ฅ์ supervision learning ๊ธฐ๋ฒ์ด ์์ต๋๋ค.
data ๊ธฐ๋ฐ machine learing model์ label์ด ์ง์ ๋๋ sample์ ์ฌ์ฉ์ ๊ธฐ๋ฐ์ผ๋ก ๋ถ๋ฅ๋ฉ๋๋ค.
Supervised: the model uses a set of (x, y) for training, where x is the feature vector and y is the associated label.
์ง๋ ํ์ต์ ๊ฒฝ์ฐ, ๋ชจ๋ธ์ ํ์ต์ ์ํด set๋ฅผ ์ฌ์ฉํ๊ณ , ์ฌ๊ธฐ์ x๋ feature vector์ด๊ณ , y๋ label์ ๋๋ค.
Unsupervised: the model uses just the feature vectors with no label information for training.
๋น์ง๋ ํ์ต์ ๊ฒฝ์ฐ, ๋ชจ๋ธ์ ํ์ต์ ์ํด label ์ ๋ณด์์ด feature vector๋ง ์ฌ์ฉํฉ๋๋ค.
unlabeled data์์ pattern์ ํ์ตํ๋ ๊ฒ์ ๋๋ค.
Semi-Supervised: a combination of labeled and unlabeled samples are used for training.
์ค์ง๋ ํ์ต์ ๊ฒฝ์ฐ, label์ด ์ง์ ๋ sample๊ณผ label ์ง์ ๋์ง ์์ smaple์ ์กฐํฉ์ด training์ ์ฌ์ฉ๋ฉ๋๋ค.
์์ supervised์ unsupervised learning ๊ธฐ๋ฒ์ด ์์๋ค๊ณ ๋ณด๋ฉด ๋ฉ๋๋ค.
์ ๊ทธ๋ฆผ์ label์ ๋ถ์ธ sample ์์ ๊ธฐ๋ฐํ supervision strategies์ ๋๋ค.
์ผ๋ฐ์ ์ผ๋ก ์ต๊ณ ์ ์ฑ๋ฅ์ supervised model์์ ๋์ต๋๋ค.
์ด๋ฐ ์ ํต์ ์ธ supervision์์๋ ์์ฌ ๊ฒฐ์ ๊ฒฝ๊ณ์ ๋ ๊ฐ๊น์ด data point๋ฅผ ์๋ณํ๊ณ , ๋ ๊ฐ์น ์๋ ์ ๋ณด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ์ตํ ์ ์๋๋ก ํฌ๋งํ๋ฉฐ ํด๋น data์ ๋ํด domain expert์ ์๊ฐ์ ๋ ์ฐ์ ์ ํ์ต๋๋ค.
๊ทธ๋ฌ๋ ๋จ์ ์ ์กด์ฌํฉ๋๋ค. ๋ค๋ค ์ ์์๊ฒ ์ง๋ง, label์ด ์๋ sample์ ๊ตฌ์ฑํ๊ธฐ์ ๋ง์ ๋น์ฉ์ด ๋ญ๋๋ค.
๋ํ, labelingํ๋ ์์ ์ domain์ด ํ์ํ ๊ฒฝ์ฐ ๋ ๋น์ฉ์ด ๋ง์ด ๋ค๋ฉฐ ์์ ์ ์๊ฐ์ด ์ง๋จ์ ๋ฐ๋ผ ๋ณ๊ฒฝ๋ ์ ์์ต๋๋ค.
์๋(์ธ๊ฐ์ด ์์ ํ ๊ฒฝ์ฐ)์ผ๋ก label์ด ์ง์ ๋ training data๋ ์ ์ ์ด๋ฉฐ, ์๊ฐ์ด ์ง๋จ์ ๋ฐ๋ผ ๋ณ๊ฒฝ ์ฌํญ์ ์ ์ํ์ง ์๋๋ค๋ ํน์ง์ด ์์ต๋๋ค.
๊ทธ๋์ ์ด ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ๊ธฐ ์ํด ๋ช ๊ฐ์ง ์ ๊ทผ ๋ฐฉ์์ด ๋์์ต๋๋ค.
๊ทธ์ค ์ ๋ Weak Supervision๊ณผ Semi-Supervised์ ๊ฐ๋ ์ ๋ํด ์ ๋ฆฌํด๋ณด๋ ค ํฉ๋๋ค.
์ํค๋ฐฑ๊ณผ์ ํ์ ๋น๋ ค ๊ฐ๋ ์ ์ ์๋ฅผ ๊ฐ์ ธ์ค๊ฒ ์ต๋๋ค.
โWeak Supervision is a branch of machine learning where noisy, limited, or imprecise sources are used to provide supervision signal for labeling large amounts of training data in a supervised learning setting.โ
weak supervision ์ supervised learning์์ ๋ง์ ์์ training data์ label์ ์ง์ ํ๊ธฐ ์ํด ๊ทธ๋ฆฌ๊ณ supervision signal์ ์ ๊ณตํ๊ธฐ ์ํด noise๊ฐ ์๊ฑฐ๋ ์ ํ์ ์ด๊ฑฐ๋ ๋ถ์ ํํ sources๊ฐ ์ฌ์ฉ๋๋ machine learning์ ํ ๋ถ์ผ์ ๋๋ค.
Weak supervision์ data labeling์ data labeling bottleneck ํ์์ ํด๊ฒฐํ๊ธฐ ์ํด ์ด๋ฐ ์ ๊ทผ ๋ฐฉ์์ด ๊ฐ๋ฐ๋์๋ค๊ณ ํฉ๋๋ค.
weak supervision ์ ์ฒด data๊ฐ label์ ๋ฌ๋ ค ์๋ ์ํ์ง๋ง, ์ต์ข ๋ชฉํ label์ ์ผ๋ถ๋ถ๋ง ์ ๊ณต๋๊ณ ์๋ ์ํฉ์ ๋๋ค.
label์ด ํจ์ฌ ๋ ์ ๋ ดํ ๊ฐ๊ฒฉ์ผ๋ก ๋ ๋ง์ ๋ฐ์ดํฐ์์ ์ป์ ์ ์๋ค๋ฉด ์ฐ๋ฆฌ๋ ๊ฑฐ๊ธฐ์ ๋ ๋ง์ ์ ๋ณด๋ฅผ ์ป์ ์ ์๊ฒ ๋ฉ๋๋ค.
๋ ์ฝ๊ฒ ์๊ธฐํ๋ฉด ํ๋ก๊ทธ๋๋ฐ์ ํตํด data point์ label์ ์ง์ ํ๋ ๋ฐฉ์์ ๋๋ค.
์ด ๋ฐฉ๋ฒ์ ์๋ฒฝํ์ง ์๋ค๊ณ ํ๋๋ฐ ๊ทธ๋ฌํ ์ด์ ๋ก๋
๋ฑ์ด ์๋ค๊ณ ํฉ๋๋ค.
heuristics, functions, distributions, domain knowledge ๋ฑ์ ์ฌ์ฉํ์ฌ classifier์ noise label์ ์ ๊ณตํ ์ ์์ต๋๋ค.
classifier๋ training์ ์ํด ๊ฐ resource์์ ์ ๊ณตํ๋ noiser๊ฐ ์๋ label์ ์ฌ์ฉํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ Snorkel์ด ์ ๋ช ํ data labeling library์ ๋๋ค.
๊ทธ๋ ๋ค๋ฉด semi supervision์ ๋ฌด์์ผ๊น์?
semi supervision์ supervised learning๊ณผ unsupervised learing์ด ์ฝ๊ฐ mix๋์ด ์๋ ํํ์ ๋๋ค.
unlabeled data(label ์์ด ๋จ์ํ feature๋ง ์กด์ฌํ๋ data)๋ฅผ ํ์ฉํฉ๋๋ค.
supervised learning์์ ํ์ฉํ labeled data, unlabeled new data๊น์ง ๋ชจ๋ ํ์ต์ ํ์ฉํ๋ machine learing ๊ธฐ๋ฒ์ ๋๋ค.
unlabeled data์ ๊ฒฝ์ฐ ์ธํฐ๋ท์ ํตํด ๋ง์ ๋ฐ์ดํฐ๋ฅผ ํ๋ณดํ ์ ์์ผ๋ฉฐ, ์ด๋ฅผ semi supervision์์ ํจ์จ์ ์ผ๋ก ํ์ฉํ ์ ์๋ค๋ฉด ๋ง์ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ ์ ์๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค.
์ด ๊ฒฝ์ฐ ์ผ๋ถ๋ถ๋ง label์ด ์๋ data๋ฅผ supervised learning์ผ๋ก ํ์ตํ ์ ์์ต๋๋ค.
๊ธฐ๋ณธ์ ์ผ๋ก label์ด ์๋ data๋ ํ์ต์ด ๋ถ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์ label์ด ์๋ ๋ฐ์ดํฐ์ธ ๊ทน์์์ ๋ฐ์ดํฐ๋ง ์ค์ ํ์ต์ ํ์ฉํ์ต๋๋ค.
ํ์ง๋ง semi-supervised learning์ ๊ฒฝ์ฐ, ์ฌ์ฉํ ์ ์๋ ๋ฐ์ดํฐ์ ์ ์์ฒด๊ฐ ํจ์ฌ ๋ ๋ง์์ง ์ ์์ต๋๋ค.
์๋ฅผ ๋ค์ด, ๋๊ธ 10,000๊ฐ๋ฅผ ๋ชจ์ ๊ธ์ /๋ถ์ ๊ฐ์ ๋ถ์์ ์งํํ๋ ค๊ณ ํฉ๋๋ค.
๊ทธ๋ฌ๋ ์ด์ ์ ์๋์ผ๋ก label(positive/negative)์ ํ ๋นํ ๋ฌธ์ฅ์ด 50๊ฐ๋ฟ์ ๋๋ค.
๋๋จธ์ง data์ label์ ์ง์ ํ๋ ๋์ , ๋ค๋ฅธ ๋ฐฉ๋ฒ์ ์ ํํฉ๋๋ค.
50๊ฐ์ label์ด ์ง์ ๋ ์์ ๋ฅผ ์ฌ์ฉํ์ฌ supervised model์ ๊ตฌ์ถํฉ๋๋ค.
์ฌ์ฉ ๊ฐ๋ฅํ sample์ ์๊ฐ ์ ๊ธฐ ๋๋ฌธ์ model์ ์ฑ๋ฅ์ด ์ ํ๋ ์ ์์ต๋๋ค.
label์ด ์ง์ ๋์ง ์์ data๋ก unsupervised model์ ๊ตฌ์ถํ์ฌ ์์ sample์ ๋ ๊ฐ์ cluster๋ก ๊ทธ๋ฃนํํฉ๋๋ค.
๋ฐ์ดํฐ๋ ์์ฐ์ค๋ฝ๊ฒ ์ฌ๋ฌ ๊ฐ์ ์์ cluster๋ฅผ ํ์ฑํ ์ ์์ผ๋ฉฐ, ๋ ๊ทธ๋ฃน์ผ๋ก ๊ฐ์ ํ ๊ฒฝ์ฐ ์๋ํ๋ positive/negative๋ก๋ง ๋ถ๋ฅ๋์ง ์์ ์ ์์ต๋๋ค.
label์ด ์ง์ ๋ data์ label์ด ์ง์ ๋์ง ์์ ๋ชจ๋ data๋ฅผ ์ฌ์ฉํ์ฌ semi-supervised model์ ๊ตฌ์ถํฉ๋๋ค.
๊ทธ๋ฌ๋ฉด 50๊ฐ์ ์์ง๋ฅผ ์ฌ์ฉํ์ฌ ๋๋จธ์ง data์ label์ ์ง์ ํ๊ณ , supervision sentiment prediction model์ ๊ตฌ์ถํ ๋ ๋ ํฐ ๋ฐ์ดํฐ์ ์ ์ ๊ณตํฉ๋๋ค.
๋ง์ ํ์ต ์ ํ์ด ์์ง๋ง ๊ทธ์ค ํ๋์ ์์๋ฅผ ๋ค์์ต๋๋ค.
์ด๋ ๊ฒ ๊ฐ๋ ์ ์ ์๋ง ๋ณด๊ณ ๋ ์ฌ์ค ์์ง ์ ํํ ์ดํดํ๊ธฐ ํ๋ ๊ฒ ๊ฐ์ต๋๋ค.
์ ๋ weak supervision๊ณผ semi supervision์ ๋ํ ๋ ผ๋ฌธ์ ์ฝ์ด๋ณด๋ฉฐ ์กฐ๊ธ ๋ ์์๋ณด๋ ค๊ณ ํฉ๋๋ค.
์๋ ๊ทธ๋ฆผ์ ํตํด
์ ๊ฐ๋ ์ ๋ํด ์ดํดํ๋๋ฐ ๋์์ด ๋์ จ์ผ๋ฉด ์ข๊ฒ ์ต๋๋ค.