텍스트 데이터란 문자, 단어, 문장으로 구성된 데이터를 말함.
텍스트 데이터는 웹 사이트, 학술 정보, SNS 등 다양한 출처에서 발생함.
➡️ 보통 규모가 굉장히 큼(매일 약 8200만 TB의 텍스트가 생성)
활용
비즈니스 관점에서 보면 시장에서의 요구사항을 파악할 수 있는 확인 창구
학술적인 관점에서 보면 더 좋은 텍스트 이해를 위한 연구 도구
가장 큰 특징은 텍스트는 이루고 있는 작은 조각들(=토큰)이 있는데, 그 조각들이 단어라고 가정하면 하나의 단어는 이웃 단어와 연관성이 존재한다는 것
텍스트는 비구조적 데이터라서 처리 과정에서의 어려움이 존재
형태가 정해져있지 않기 때문에 여러가지 변수들이 존재
(다양성, 다의성 등)
언어별로 특징이 달라서 어려움 발생
( 문법, 어휘, 발음 등)
마이닝이란?
➡️ 마이닝 = 채굴(광물에서 귀중한 금속이나 광석을 얻는 작업)
데이터에서의 마이닝이란?
➡️ 광물에서 자원을 찾기 위해 채굴하듯이 큰 데이터에서 유용한 정보를 얻기 위해 하는 작업들을 말함
➡️ 채굴된 정보와 패턴으로 통찰력을 얻기 위해 하는 것이며 이를 바탕으로 의사결정을 함
정보를 얻고자 하는 원천 데이터가 텍스트이면 텍스트 마이닝,
이미지 데이터이면 이미지 마이닝,
특정되지 않은 일반적 데이터면 데이터 마이닝이라고 함
대용량 텍스트 속에 존재하는 유용한 패턴, 규칙을 찾아내서 인사이트를 추출하고 의사결정을 내리는 일련의 과정을 의미
텍스트 마이닝의 진행 과정은 다음과 같음
웹, SNS 등에서 텍스트를 추출 ➡️ 비구조화 되어있기 때문에 전처리 ➡️ 텍스트 마이닝 진행 ➡️ 결과를 가지고 해석이나 평가 진행

자연어 처리와 텍스트 마이닝은 완전히 같지 않고 다른점이 존재함
자연어 처리
컴퓨터에게 사람의 언어를 이해시키는 것에 큰 목적이 있음
(컴퓨터가 사람의 언어를 이해하고 해석하는데 사용되는 분야)
사람이 하는일(ex. 글 간추리기, 번역 등)을 제공하고자 함
텍스트 마이닝
정리 - 자연어 처리와 텍스트 마이닝의 목적의 차이가 존재
pandas
gensim
nltk
텍스트 마이닝은
과정으로 프로세스를 나눌 수 있음
텍스트 마이닝 프로세스의 첫 단계
데이터 수집 방법
웹 크롤링
웹에 있는 텍스트 데이터를 긁어오는 과정
크롤링이 막혀있는 사이트들도 있어서 허용된 사이트 위주로 사용해야 함
API 사용
대형 SNS, 뉴스 사이트 등은 데이터 제공을 위해 API를 제공
API 사용 비용을 지불해야할 수 있음
공개 데이터
수집한 데이터는 쓸 수 없는 형태의 데이터도 존재하기 때문에 데이터 질 관리 위해서 목적성에 맞는 글, 다양성이 확보되는 글을 주기적으로 모니터링 해야함
특정 주제에 대한 관련성이 없는 글이나 내용이 부족한 글은 분석에 적합하지 않을 수 있음
따라서 주기적으로 데이터를 검토하고 필요에 따라 추가 데이터를 수집하여 데이터의 질을 유지하고 향상시키는 것이 중요함
수집된 데이터는 일반적으로 비구조화 데이터로, 분석하기에 불완전한 상태일 가능성이 높음
➡️ 따라서 분석 가능한 형태로 데이터를 정제하는 과정이 필요한데 이를 전처리라고 부름
푸는 문제에 따라 다양한 전처리 방법이 존재
노이즈 값 제거
수집 데이터에는 이모티콘, 비속어, 오타 등 다양한 노이즈 값이 존재
이러한 이상 데이터를 제거 or 수정하는 방법
분석에 최소 단위로 글 분류
목적에 따라 사용하는 정보 단위가 다름
단어 단위로 할지 철자 단위로 할지와 같은 정보 단위 설정을 하고 분리
➡️ 이를 토크나이즈(tokenize) 라고 함
글을 분리한 뒤에는(=토크나이즈 한 뒤에는) 컴퓨터가 이해할 수 있는 숫자 형태로 변환
➡️ 이를 임베딩(embedding) 라고 함
글 길이 조절
데이터로부터 유용한 정보를 추출하고 인사이트를 도출하는 과정을 말함
다양한 마이닝 기법
내용 파악 및 분석
숨겨진 의미 파악
관계 파악 및 구조화
분석 결과를 바탕으로 정보 이해, 통찰 도출, 의사 결정 과정에서 사용
정보 이해
텍스트의 전반적인 내용 파악
ex) 40대 제품 사용자의 반응에서 나오는 키워드 파악
통찰 도출
텍스트 데이터에 숨어있는 정보 추출
ex) 제품에 대한 긍정/부정 평가 이해
의사 결정
비즈니스 전략, 마케팅 등 의사 결정 과정
ex) 부정적인 부분 개선해서 마케팅에 활용
자주 묻는 질문(FAQ)
책에 밑줄 긋기
심리 분석
신문 스크래핑
네이버 검색 트렌드