[무럭무럭자라라]텍스트마이닝#1

ChoiCOKo·2021년 8월 29일
0

무럭무럭자라라

목록 보기
9/9

비정형 데이터의 특징

다양성

  • 데이터셋의 구조적인 이질성을 나타냄
    "구조화 데이터는 전체 데이터 중 5% 차지함. 비정형 데이터는 나머지 90% 이상의 데이터이다. 앞으로의 추세는 이 비율이 점점 늘어나는 것."
    준구조화 데이터? : XML, HTML

변동성

  • 다양한 요소에서 변화될 수 있음
    시간에 따른 데이터의 변화 여부

속도

  • 데이터가 생생되고 분석되는 속도
    스마트 기기의 발전으로 데이터를 생성하는 속도가 매우 증가

정확성

  • 부정확하고 불확실한 일부 데이터
    소셜 미디어 이용자들의 감정을 정확히 알 수 없음
    비정형 데이터의 특징은 비정확성
    하지만 솔직은 한 데이터이다

의미

복잡성

  • 데이터는 구조, 형식, 내용 등에 따라 다르게 나타남

이런 데이터를 분석하는 방법론 = 텍스트마이닝

yTextMiner

한글 텍스트와 영어 텍스트를 처리할 수 있도록 고안됨

  • 한글 텍스트 : Komoran(보고서, 논문 등의 정형화 된), Twitter Korean(트위터, 블로그 등 자유로운 글)
  • 영어 텍스트 : 스탠포드..

요소들

Token

  • Token (word), 원형 Token, 품사, 개체명, 불용어를 포함함

Sentence

  • 문장과 문장의 감성 점수를 포함함 = 문장이 갖는 감성을 값으로 나타낼 수 있음
  1. CoreNLP
  2. SentiWordNet

Document

  • 문서 분류
  • 감성 분석 (Lingpipe)

Collection

  • 문서 집합과 이를 이용한 모델

전처리 (preprocessing)

profile
무럭무럭자라라

0개의 댓글