비정형 데이터의 특징
다양성
- 데이터셋의 구조적인 이질성을 나타냄
"구조화 데이터는 전체 데이터 중 5% 차지함. 비정형 데이터는 나머지 90% 이상의 데이터이다. 앞으로의 추세는 이 비율이 점점 늘어나는 것."
준구조화 데이터? : XML, HTML
변동성
- 다양한 요소에서 변화될 수 있음
시간에 따른 데이터의 변화 여부
속도
- 데이터가 생생되고 분석되는 속도
스마트 기기의 발전으로 데이터를 생성하는 속도가 매우 증가
정확성
- 부정확하고 불확실한 일부 데이터
소셜 미디어 이용자들의 감정을 정확히 알 수 없음
비정형 데이터의 특징은 비정확성
하지만 솔직은 한 데이터이다
의미
복잡성
- 데이터는 구조, 형식, 내용 등에 따라 다르게 나타남
이런 데이터를 분석하는 방법론 = 텍스트마이닝
yTextMiner
한글 텍스트와 영어 텍스트를 처리할 수 있도록 고안됨
- 한글 텍스트 : Komoran(보고서, 논문 등의 정형화 된), Twitter Korean(트위터, 블로그 등 자유로운 글)
- 영어 텍스트 : 스탠포드..
요소들
Token
- Token (word), 원형 Token, 품사, 개체명, 불용어를 포함함
Sentence
- 문장과 문장의 감성 점수를 포함함 = 문장이 갖는 감성을 값으로 나타낼 수 있음
- CoreNLP
- SentiWordNet
Document
Collection
전처리 (preprocessing)