또한 chatGPT의 경우 사람들에게 도달하는데 몇 주밖에 걸리지 않았다.
Noam Chompsky: The False promise of ChatGPT 를 봐보자.
ACES: Accuracy Challenge Sets for Evaluating Machine Translation Metrics (의도적으로 틀린 데이터 형성)
다른 나라의 문화적 측면을 고려한 MT!
인코더의 끝에는 은닉층, 디코더로 전달. 단어를 주어진 문맥을 고려하여 최종 만들어냄 (word-by-word generation)
인풋은 텍스트, 문서, 그리고 다음 문자를 그저 예측하는 LM.
둘은 많이 다를까?
LM 은 MT 의 인코더-디코더의 심플화이다!
WMT 데이터셋을 사용했다. (주요 유럽 언어를 커버하기 위해 사용)
X > English > German, Chinese, Russian, French-German
Text-davinci-003 이 조금 더 나앗다. (이해에 관해서는)
예와 함께 더 좋은 성능을 보임 (In context Learning Performance)
One-shot 이 때때로 five-shot 보다 성능이 더 좋았다. (퀄리티가 더 중요)
인간 평가에 따르면 성능은 다음과 같다.
모델의 편향성이 다르다.
패턴 매칭을 시도한다. 소스- 타깃의 페어를 맞추는 것으로. 단어단위와 구 단위로.
반면 GPT 모델은 그저 높은 퀄리티의 문서를 학습한다. 패러프레이징!
Non-monoticity
GPT 는 인풋을 문맥화하고, 문장을 만드는 역할을 수행한다. 단어 단위 매핑을 하는 것은 아님.
Fluency
Punctuation Insertion
Punctuation 에 관해서는 더 정확하게 다뤘다!
Drpoped Content
Insert Content
MT의 문제 - Translationese
문장의 페어가 학습에 있어서 중요했다. 인간의 annotations 는 매우 달라서 찾기가 힘들었다. 몇 문장은 아예 번역이 어려웠다.
Longer Context
길어진 글도 문제였다. > GPT 는 긴 문서에 대한 학습을 통해 긴 시퀀스의 해석을 제공하는 것이 가능했다.
Knowledge Transfer
데이터가 충분하지 않았다. > GPT 는 어떻게 문장, 문서를 쓰는지 학습했다. 매우 적은 수의 문서로도 가능.
Generalization
매우 추상적인 문맥을 만드는 것이 어려웠다. > GPT 는 매우 일반적인 태스크 위에서 형성된다.
Scaling
We should adapt to the radical transformation that is occuring.
We see this is a bigger change than the transformation from feature engineering to depp learnig.
해당 포스트는 서울대학교 데이터사이언스 대학원이 주최한 세미나, 김영진 박사님의 "How Good Are GPT Models at Machine Translation?; Why?" 세미나를 바탕으로 제작된 것입니다.