핵심 키워드 : 모델, 딥러닝, 레이블, 학습,
1.1 자연어 처리 과정
- 입력 → 모델 → 출력
- 입력 : 자연어
- 모델 : 입력에 대해 특정 범주일 확률 반환하는 함수
- 출력 : 확률 (후처리 후 자연어)
- 학습 : 정답과 가까운 출력을 할 수 있게 모델 update 하는 일련의 과정
1.2 트랜스퍼 러닝
- 정의 : 특정 task를 학습한 모델을 다른 task 수행에 재사용하는 기법
- 특징 : 기존(task를 처음부터 학습) 보다 모델의 학습 속도가 빨라짐, 새로운 task를 더 잘 수행
upstream task
- 그림에서 Task 1에 해당함
- 특징
- 자연어의 풍부한 문맥(context)를 내재화
- 다음 단어 맞추기, 빈칸 채우기 등 대규모 말뭉치 이해하는 과정
- 다음 단어 맞추기 : GPT 계열 모델 (티끌 모아 __ ) ⇒ 이전 문맥을 고려한 자기회귀 방식으로 빈 칸 예측
- 빈칸 채우기 : BERT 계열 모델 (티끌 __ 태산) ⇒ 앞 뒤 문맥을 고려해서 빈칸 채우기
- 둘 다 해당하는 단어의 확률은 높이고 나머지 단어는 낮추는 방식으로
- pretrain : upstream task를 학습하는 과정
- 장점
- 자기지도학습(self-supervised learning) : 데이터 내에서 정답을 만들고 이를 바탕으로 모델을 학습하는 방법 ⇒ 수작업 없이도 다량의 학습 data modeling
downstream task
- 그림에서 Task 2에 해당함
- 특징
- 구체적으로 풀고자 하는 문제
- 해당 입력이 어떤 범주에 해당하는지 확률로 반환하는 분류의 본질을 가지고 있음
- fine-tuning : pretrain 마친 모델을 downstream task에 맞게 업데이트하는 기법
어떤 것을 할 수 있나??
- 문서 분류 : 입력에 대한 범주 분류
- 자연어 추론 : 문장 2개를 입력받아 참 or 거짓
- 개체명 인식 : 입력에 대한 개체명 범주 속하는지 확률값 반환
- 질의응답 : 자연어(질문 + 지문)
- 문장생성 : 입력 문장 뒤 올 단어 적절한거
참고 사이트