[NLP] 텍스트 마이닝 기초

Changh2·2024년 9월 25일

NLP

목록 보기

1/4

[파이썬 텍스트 마이닝 완벽 가이드] 교재 1장을 기반으로 작성되었습니다.

= 텍스트에서 고품질 정보를 추출하는 과정
= 텍스트에 숨어 있는 패턴을 이용해 어떤 사건을 예측하는 것
= 자연어 처리 기법을 이용해 텍스트를 정형화된 데이터로 변환하고, 머신러닝 기법을 적용해 우리가 관심이 있는 어떤 사건을 예측하고자 하는 방법론

위에서 말한 정형화된 데이터란 대부분의 경우 일정한 길이의 벡터를 말하는데,
주어진 텍스트를 일정한 길이의 벡터로 변환하는 과정을 워드 임베딩이라 한다.

문장에 있는 단어들의 갯수를 세고, 주로 사용된 단어들을 이용해 그 문장의 내용을 파악하는 방식.
각 단어별로 갯수를 세어서 이를 벡터로 만든다고 이해하면 쉽다.

사용된 단어가 A,B,C,D,E 총 다섯개이고 각 단어별로 갯수가 각각 3,7,4,2,5 인 경우
>> [3,7,4,2,5]
와 같은 리스트 형태로 표현된다.

각 단어를 먼저 벡터로 변환하고, 이러한 벡터의 연속된 나열 혹은 시퀀스로 문서를 표현한다.
단어를 일정 규칙에 따라 정렬하고 단어의 수만큼의 벡터를 만든 후에 단어 자신의 위치만 1로 표시하는 것이 가장 쉬운 방법.

사용된 단어가 A,B,C,D,E 총 다섯개만 있다면 
>> A = [1,0,0,0,0]
>> B = [0,1,0,0,0]
>> C = [0,0,1,0,0]
>> D = [0,0,0,1,0]
>> E = [0,0,0,0,1]
이와 같이 표현하는 것.

--> 이런 방식을 원핫 인코딩이라 한다.

어떤 문서가 "A C D" 순서로 이루어져 있다면
>> [[1,0,0,0,0],[0,0,1,0,0],[0,0,0,1,0]]
와 같이 2차원 리스트로 표현할 수 있다.

이런 방식은 수많은 문서에 사용된 단어를 벡터로 변환했을 때 벡터가 지나치게 커지는 문제가 있다. 따라서 보통 딥러닝 기법에서는 특별한 과정을 거쳐서 이렇게 긴 벡터를 길이가 보통 200 정도 짧은 벡터를 변환하는데, 이를 문서 임베딩이라고 부른다.

자연어 처리 : 컴퓨터를 이용해 사람의 자연어를 분석하고 처리하는 기술
전처리 기법 : 자연어 처리 기법 중 일부이다. 형태소 분석, 품사 부착, 구절 단위 분석, 구문 분석이 있다.
즉, 텍스트를 일정 길이의 벡터로 변환하기 위해 쓰이는 기법이다.

Shoot for the moon!