Text Analytics는 문서(text)와 같은 비정형 데이터를 분석하여 그 속에 포함된 의미 있는 정보를 추출하는 과정을 의미합니다.
텍스트 분석의 단계는 아래와 같이 크게 4단계로 정의해볼 수 있습니다: ① Define & Collect / ② Preprocess & Transform / ③ Select & Extract Features / ④ Algorithm Learning & Evaluatio
자연어 처리 주요 연구 분야는 음운론, 형태론, 구문론, 의미론, 화용론, 담론이며, 각각 다양한 응용 및 성과를 보입니다. 토큰화, 형태소 분석, 품사 태깅, 객체명 인식, 구문 분석, 언어 모델링 등의 기술이 사용되며, 최근 딥러닝 모델이 중요한 역할을 합니다.
자연어 처리(NLP)에서 텍스트 데이터를 효율적으로 다루기 위해 다양한 임베딩 기법과 알고리즘이 사용됩니다. 이번 포스트에서는 이러한 기법들을 자세히 설명하고, 각 기법의 예시를 통해 이해를 돕고자 합니다.
NLP 차원축소 기법 - 차원 축소는 고차원 데이터에서 분석의 복잡성을 줄이고 시각화 및 계산 효율성을 높이기 위해 필수적인 과정입니다.
Topic Modeling은 문서 내 숨겨진 주제를 추출하는 기법으로, LSA, pLSA, LDA 등의 접근법이 있습니다. LDA는 확률적 모델링을 통해 강력한 성능을 보이며, 최신 연구에서는 Neural Topic Modeling 등 변형 모델들이 등장하고 있습니다.