사람의 언어를 컴퓨터가 알아듣도록 처리하는 인터페이스
딥러닝의 의해 비약적인 발전을 이루었다
교착어 : 어근(의미) + 접사(문법)로 구성
굴절어 : 어근의 형태가 바뀜
교착어
- 어근 + 접사가 다양한 형태로 결합
띄어쓰기
- 동양권 언어에서 띄어쓰기는 근대에 들어서면서 도입되었다
- 띄어쓰기에 대한 표준이 계속 변화
- 추가적인 분절을 통해 띄어쓰기를 정제해주는 과정이 필요
-평서문과 의문문
- 의문문과 평서문이 같은 형태의 문장 구조를 가짐
- 마침표나 물음표가 붙지 않으면 구분이 안됨
- 음성 인식의 결과물로 나오는 텍스트는 더욱 어려움
주어 생략
- 영어 : 명사의 역할이 중요, 주어 생략이 없음
한자 기반의 언어
- 한자의 조합으로 이루어지는 단어가 많다
- 한글이 한자를 대체하면서 문제 발생(표의문자가 표음문자로 바뀌면서 정보 손실 발생)
Rnn을 활용한 언어 모델링 시도(2010) : n-gram 방식과의 결합하여 성능 향상
word2vec 개발(2013) : 단순한 구조의 신경말 사용,단어들을 잠재 공간( latent space)에 투사
Cnn으로 텍스트 분류(2014): 딥러닝으로 형태소 분석, 문장 파싱, 개체명 인식, 의미역 결정 등의 언어처리 문제 해결
자연어 생성(Natural language Generation)(2014) : seq2seq + attention-> NMT(Neural Machine Translation)
메모리를 활용한 심화 연구(Neural Turing Machine) : 여러 주소에서 연속적으로 정보를 읽고 쓰는 방법을 제시
강화학습의 자연어 처리 분야에 대한 성공적인 적용 : 강화학습을 활용하여 SeqGan