자연어처리(Natural Language Processing) 기초용어 정리
용어 정리
- 말뭉치(corpus) : 특정한 목적을 가지고 수집한 텍스트 데이터
- 문서(document): 문장(sentences)들의 집합
- 문장(sentence): 여러 개의 토큰(단어, 형태소 등)으로 구성된 문자열. 마침표, 느낌표 등의 기호로 구분할 수 있음.
- 어휘집합(vocabulary): 코퍼스(corpus)에 있는 모든 문서, 문장을 토큰화한 후 중복ㅇ르 제거한 토큰의 집합
간단한 키워드 복습
- 벡터화: 단어, 문장, 문서를 컴퓨터가 이해할 수 있도록 숫자화해주는 과정으로 자연어 처리 모델의 성능을 결정하는 중요한 역할을 하며 벡터화 방법은 크게 등장 횟수 기반의 단어표현과 분포기반의 단어 표현으로 나눌 수 있다.
- Bag of Words(BoW)는 문장 혹은 문서를 벡터로 나타내는 가장 단순한 방법.
- TF-IDF(Term-Frequency-Inverse Documnet Frequency): 특정 문서에만 더 자주 등장하는 단어에 가중치를 두는 벡터화 방법.
- 자연어 처리로 할 수 있는 task: 감정 분석, 기계 번역, 질의 응답, 요약 (객체탐지는 이미지 혹은 영상 내에 등장하는 물체가 어떤 범주에 해당하는 지를 탐지하기 위한 것으로 자연어 처리와 상관 없다.)
- 불용어(stop words): 주로 접속사, 관사, 부사, 대명사, 일반동사 등 자연어에 포함되어 있는 정보를 담지 않는 단어들로 불용어를 어떻게 커스터마이징 하느냐에 따라 텍스트마이닝 모델의 성능이 달라질 수 있다. 같은 단어라고 해도 데이터셋이나 풀고자하는 문제에 따라 불용어가 될 수도 있고 안될 수도 있기 때문에 해당 데이터에 맞게 불용어를 커스터마이징하는 것은 주요하다.
- 어간추출과 표제어 추출은 모두 단어를 일정한 형태로 만들어주는 정규화(normalization)방법이다.
- 어간 추출(stemming)
- 표제어 추출(lemmatization)
- 횟수 기반의 벡터 표현(count-based representation)으로 문서를 벡터화한 뒤 문서-단어 행렬로 나타내는 경우가 많다. 이 행렬의 행에는 문서가 위치하고 열에는 단어가 위치한다.