BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova Abstra
์ ๊ฒฝ๋ง๋ชจ๋ธ์ ๊ฐ layer์์๋ input ๊ฐ๊ณผ W, b๋ฅผ ๊ณฑ, ํฉ์ฐ์ฐ์ ํตํด a=WX+b๋ฅผ ๊ณ์ฐํ๊ณ ๋ง์ง๋ง์ ํ์ฑํ ํจ์๋ฅผ ๊ฑฐ์ณ f(a)๋ฅผ ์ถ๋ ฅํ๋ค. ์ด๋ ๊ฒ ๊ฐ layer๋ง๋ค sigmoid, softmax, relu ๋ฑ.. ์ฌ๋ฌ ํ์ฑํ ํจ์๋ฅผ ์ด์ฉํ๋๋ฐ ๊ทธ ์ด์ ๊ฐ ๋ญ
Open Domain Question Answering: ๋ค์ํ ์ฃผ์ ์ ๋ํ ๋๋์ ๋ฌธ์ ์งํฉ์ผ๋ก๋ถํฐ ์์ฐ์ด ์ง์์ ๋ํ ๋ต๋ณ์ ์ฐพ์์ค๋ task๊ตฌ๊ธ์ ์ ๋ ฅ๋ real query์ ๋ํด long / short / others ํ์ ์ QAOpen-domain QA ํ ์คํธ
์ด ํฌ์คํ ์ https://github.com/danqi/acl2020-openqa-tutorial ๋ฅผ ์ฐธ๊ณ ํ์ฌ ์์ฑํ์์ต๋๋ค. Description Open-domain Question Answering์ ๋ค์ํ ์ฃผ์ ์ ๋๋์ ๋ฌธ์ ์งํฉ์ ์ฌ์ฉํ ์ง์์๋ต์ ๊ดํ
์ด ํฌ์คํ ์ https://github.com/danqi/acl2020-openqa-tutorial ๋ฅผ ์ฐธ๊ณ ํ์ฌ ์์ฑํ์์ต๋๋ค. (1) ์ง๋ 10๋ ๋์ QA ์์คํ ์ ์ผ๋ง๋ ์ง์ ์ ์ด๋ฃจ์๋๊ฐ?(2) ํ์ฌ ์ ๊ทผ ๋ฐฉ์์ ์ฃผ์ ๊ณผ์ ์ ํ๊ณ๋ ๋ฌด์์ธ๊ฐ?(3) ๋ฅ๋ฌ๋
์ด ํฌ์คํ ์ https://github.com/danqi/acl2020-openqa-tutorial ๋ฅผ ์ฐธ๊ณ ํ์ฌ ์์ฑํ์์ต๋๋ค. 9\. Open problems and future directions
ย end-to-end learning์ ์ ๋ ฅ์์ ์ถ๋ ฅ๊น์ง ํ์ดํ๋ผ์ธ ๋คํธ์ํฌ ์์ด ์ ๊ฒฝ๋ง์ผ๋ก ํ ๋ฒ์ ์ฒ๋ฆฌํ๋ค๋ ์๋ฏธ์ด๋ค. ํ์ดํ๋ผ์ธ ๋คํธ์ํฌ๋ ์ ์ฒด ๋คํธ์ํฌ๋ฅผ ์ด๋ฃจ๋ ๋ถ๋ถ์ ์ธ ๋คํธ์ํฌ์ด๋ค. ์๋ฅผ ๋ค์ด, ๊ธฐ์กด์ Speech recognition system์ MFCC
์ปดํจํฐ์ฐ๊ตฌ์ ๋ณด์ผํฐ>๋ํ์๋ด์ ๋ ์ง๋ณ, ๊ตญ๋ด/์ธ๋ณ๋ก ๊ฒ์ํ ์ ์์ผ๋ ์ฐธ๊ณ ๋ฐ๋๋ค.NIPS, ICML, ICLR๊ฐ 3๋ ํํ์ง๋ก ๋ถ๋ฆฐ๋ค.Neural Information Processing Systems๋งค๋ 12์ ๊ฐ์ต์ต๊ณ ๊ถ์ ํํ๋ก ์ ๋ช ํ๋ฉฐ, 1987๋ ๋ถํฐ ๊ฐ์ต. ๊ณ์ฐ
๋์ Review Abstract ๊ธฐ์กด DNN์ ํ๊ณ์ : sequence์ sequence๋ฅผ ๋งคํํ๋๋ฐ ์ฌ์ฉํ ์ ์์ ์ด ๋ ผ๋ฌธ์์๋ ๋ฌธ์ฅ ๊ตฌ์กฐ์ ๋ํ ์ต์ํ์ ๊ฐ์ ๋ง ํ๋ sequence learning์ ๊ดํ end-to-end approach๋ฅผ ์ ์ํ๋ค.
๋ชจ๋ธ์ ์ ์ฝ(penalty)๋ฅผ ์ฃผ๋ ๊ฒ์ด๋ค. perfect fit์ ํฌ๊ธฐํจ์ผ๋ก์จ(training accuracy๋ฅผ ๋ฎ์ถค์ผ๋ก์จ), potential fit์ ์ฆ๊ฐ์ํค๊ณ ์(testing accuracy๋ฅผ ๋์ด๊ณ ์)ํ๋ ๊ฒ์ด๋ค.์ค๋ฅธ์ชฝ ๊ทธ๋ํ๋ฅผ ๋ณด๋ฉด ๋ชจ๋ training da
Transformer์ ๋ํด ๊ฐ์ธ์ ์ผ๋ก ๊ถ๊ธํ๋ ์ ๋ค
Manifold๋ ๊ณ ์ฐจ์ space์ ์๋ data๋ฅผ ๋ํ๋ผ ์ ์๋ ์ ์ฐจ์ subspace๋ฅผ ๋งํ๋ค. ๊ทธ๋ฌ๋ฏ๋ก manifold learning์ด๋ ๊ณ ์ฐจ์ data๋ฅผ ์ ์์ฐ๋ฅด๋ subspace๊ฐ ์๋ค๋ ๊ฐ์ ํ์ ํ์ต์ ์งํํ๋ ๋ฐฉ๋ฒ์ ์๋ฏธํ๋ค. : ์ ๋ ฅ๊ณผ ์ถ๋ ฅ์ด ๋
Auto-Regressive Auto-Regressive์ค์ค๋ก์ ํ๊ท์๊ธฐ ์์ ์ ๊ณผ๊ฑฐ๋ฅผ ๋๋์๊ฐ๋ค์๊ธฐ ์์ ์ ์ ๋ ฅ ๋ฐ์ดํฐ๋ก ํ์ฌ ์ค์ค๋ก๋ฅผ ์์ธกํ๋ ๋ชจ๋ธ์ด์ ์ํ์ ์ ๋ณด๋ฅผ ๊ธฐ๋ฐํ์ฌ ์์ธก์ ์ํํ๋ ๋ชจ๋ธAR model์์ ํ์์ ์ data๋ ์ด์ ์์ ์ ๋ชจ๋ ๋ฐ์ดํฐ์ de
Pre-training objectives tailored for abstractive text summarization have not been exploredLack of systematic evaluation across diverse domainsLarge-sc
Self-supervised learning์ผ๋ก์จ token์ด ๋ฌด์์๋ก mask๋์์ ๋ ์ด๋ฅผ ๋ณต์ํ๋๋ก ํ์ต์ํค๋ Masked LM approach๋ค์ด ํฐ ์ฑ๊ณผ๋ฅผ ๊ฑฐ๋ โ ํ์ง๋ง, ํ์ฌ approach๋ค์ ํน์ task(e.g. span prediction, gene
๊ณ ์ ๊ฐ = eigenvalue๊ณ ์ ๋ฒกํฐ = eigenvector๋ณดํต ์์ด๋ก ํ๊ธฐํ์ง๋ง, ์๋ ํด์์์๋ ํ๊ตญ์ด๋ก ํ๊ธฐํจ. Definition 1. A nonzero vector x is an eigenvector of a square matrix A if there ex
Notably, the Max oracle which always selects the best candidate has much better performance than the original outputs, ...by SimCLS ๋ฐ์ทA. Stack Overflo