텍스트 마이닝 vs 자연어 처리

Joo·2024년 7월 31일
0

Data Analytics 101

목록 보기
13/15
post-thumbnail

문득 자연어 처리와 텍스트 마이닝의 차이가 궁금해졌음
둘이 비슷한 거 같은데 차이가 뭘까?

자연어 처리(Natural Language Processing, NLP)

인간이 일상에서 사용하는 언어를 컴퓨터가 이해, 해석, 조작, 생성할 수 있도록 연구하고 구현하는 인공지능의 주요 분야 (기계 번역, 음성 인식, 챗봇, 문서 분류, 텍스트 생성 등)

뭘 하는가?
언어 모델링 - 언어의 구조나 문법을 이해하고 모델링
의미 분석 - 단어의 의미를 파악하고, 문장과 문맥 이해
텍스트 생성 - 인간의 언어와 유사한 텍스트를 생성 (예, Chatbot, 텍스트 요약)
기타 작업 - 품사 태깅, 구문 분석, 개체명 인식, 기계 번역, 음성 인식 등

어떤 툴을 사용하는가?
주로 ML, DL 모델을 이용함
NLTK, SpaCy, BERT, Transformers, OpenNLP 등

텍스트 마이닝

비정형 텍스트에 대해 자연어 처리 기술과 문서 처리 기술을 적용해 유용한 정보를 추출, 가공하는 것을 목적으로 하는 기술이며 텍스트 데이터에서 패턴, 트렌드, 관계 발견에 사용됨 (SNS 분석, 고객 리뷰 분석, 트렌드 분석, 마케팅 인사이트 도출 등)

• 텍스트 마이닝 = 자연어 처리 + 문서 처리
• 데이터로부터 유용한 인사이트를 발굴하는 데이터 마이닝, 언어를 정보로 변환하기 위한 자연어 처리, 정보 검색 등 다양한 분아가 접목되어 발전해왔음

뭘 하는가?
텍스트 추출 - 웹 크롤링, DB에서 텍스트 데이터 수집
텍스트 정제 - 불필요한 데이터 제거하고 텍스트 정리 (불용어 제거, 정규화 등)
텍스트 분석 - 단어 빈도 분석, 주제 모델링, 감정 분석, 클러스터링, 분류 등

어떤 툴을 사용하는가?
주로 통계 기법과 데이터 마이닝 기법 사용함
NLTK, TextBlob, Gensim, 사이킷런, SpaCy 등


텍스트 마이닝과 NLP의 관계

텍스트 마이닝 작업 수행 시, 아래와 같은 NLP 기술이 적용될 수 있음

텍스트 정제
: 텍스트에서 불용어(stopwords) 제거하고, 어간 추출(stemming)이나 표제어 추출(lemmatization) 수행 (정규표현식을 통해 의미없이 반복되는 글자 삭제할 수 있음)

토큰화(Tokenization)
: 문장을 단어 단위로 분할 (NLTK)

형태소 분석(Morphological Parsing)
: 문장 구성하는 각 단어들을 형태소 단위로 분류 (Khaiii, KoNLPy, Mecab, Hannanum 등) - 띄어쓰기에 영향을 많이 받음

※ KoNLPy 패키지 내에 다양한 형태소 분류기(Hannanum, Kkma, Komoran, Mecab, OpenKoreanText 등)가 포함되어 있음. 형태소 분석 뿐만 아니라 품사 태깅, 구문 분석 등도 가능함!
※ Okt - 트위터 기반 형태소 분류기라 신조어에 강함
※ Kkma - 속도가 좀 느리지만, 품사 태깅이 디테일하게 가능
※ Mecab - 처리 속도가 빠름 (일본어도 가능)

품사 태깅(Part-of-Speech Tagging)
: 각 단어 품사 태깅

구문 분석(Syntax Parsing)
: 문장 구조 분석해 구문 트리 생성

감정 분석(Sentiment Analysis)
: 텍스트의 감정을 분석해 긍정, 부정, 중립으로 분류

주제 모델링(Topic Modeling)
: 텍스트에서 주제를 추출



공통점

  • 텍스트 데이터를 다루는 기술

차이점

  • 텍스트 마이닝은 텍스트에서 유용한 정보를 추출하는 데 중점
  • 자연어 처리는 컴퓨터가 인간 언어를 이해하고 생성하는 데 중점
  • 사로 사용하는 툴도 다름
    • 텍스트 마이닝은 통계, 데이터 마이닝 위주
    • 자연어 처리는 인공지능 위주
      물론 텍스트 마이닝에도 ML 적용할 수 있고, NLP에도 통계 기법 적용할 수 있긴 함!!

🟪 결론 : 텍스트 마이닝에 자연어 처리 기술이 적용될 수 있다!! (텍스트 마이닝 ⊃ NLP)

profile
적당히 공부한 거 정리하는 곳

0개의 댓글