자연어 처리는 현대 데이터 분석의 필수적인 부분으로 자리 잡고 있습니다. "자연어 처리 특강"의 1회차 내용을 바탕으로 텍스트 데이터 분석, 임베딩, 전처리에 대해 정리해 보았습니다.
비정형 데이터: 구조화된 데이터와 달리, 텍스트 데이터는 비정형적인 특성을 가집니다.
데이터 전처리의 필요성: 비정형 데이터를 분석 가능한 형태로 변환하는 작업이 필수적입니다.
컴퓨팅 자원: 텍스트 데이터는 용량이 크고, 처리에 많은 자원을 필요로 합니다.
텍스트 데이터 임베딩: 텍스트를 기계가 이해할 수 있도록 수치 데이터(벡터)로 변환하는 과정입니다.
One Hot Encoding
단어를 차원으로 정의하며, 단어의 존재 유무를 이진값으로 표현.
Term Frequency (TF)
단어 빈도를 수치화하여 표현.
TF-IDF
자주 등장하는 단어의 중요도를 낮추는 가중치 기법.
Word Embedding
단어 간 관계를 반영하여 벡터화. 대표적인 방법으로 Word2Vec이 있음.
LLM 기반 임베딩
ChatGPT와 같은 대형 언어 모델을 활용하여 고차원 벡터를 생성.
문장 분리: 긴 텍스트를 문장 단위로 분리해 분석.
불필요한 문자 제거: 특수문자, 반복되는 글자 등 제거.
토큰화(Tokenization): 텍스트를 의미 있는 단위로 쪼갬. (예: 형태소 분석)
불용어 제거(Stopword): 분석에 불필요한 단어를 제거해 데이터 품질을 높임.
자연어 처리의 기초를 다지기 위한 첫 단계로 텍스트 데이터를 어떻게 전처리 할지에 대해 간단히 알아보는 시간을 가졌습니다. 어렵지만 열심히 들으면 분명 큰 도움이 될 것 같고, 흥미가 많이 생겼습니다. 최종 프로젝트에도 적용할 수 있을 것 같아 기대됩니다.