비정형 데이터 분석

hoegon kim·2022년 10월 24일

Python

목록 보기
11/18
post-thumbnail

비정형 데이터 수집 5가지

크롤링
웹 사이트에서 정보, 뉴스, SNS 소식 등 웹문서 또는 웹 콘텐츠를 웹을 돌아 다니며 수집

스크래파이
파이썬 언어 기반 웹크롤링 프레임워크

카프카
실시간 로그처리를 위한 분산 스트리밍 플랫폼

RSS
XML 기반으로 정보를 배포하는 프로토콜을 활용
블로그, 뉴스, 쇼핑몰 등 글을 수집

Open API
응용프로그램을 실시간으로 수집할 수 있도록 공개된 API로 데이터 수집

비정형 데이터 분석

빅데이터 모델링 - 분석기법 적용 고급분석기법 중 하나

비정형 데이터의 정의 : 정형데이터, 반정형데이터와의 비교를 중심으로

이미지, 영상, 글, 사운드 등을 의미있는 데이터를 분석하는것
그것을 비정형 데이터 분석이라고하며, 비전형 데이터 마이닝

비정형 데이터를 어떻게 분석할 수 있는가?

  1. 텍스트마이닝
  2. 오피니언마이닝
  3. 감성 분석을 포함 웹마이닝
  4. 사회 연결망 분석

데이터 비교 (정형데이터와 반정형데이터)

정형데이터

지정된 행,열에 데이터가 구별, 입력된 형태
데이터가 스키마 구조 차용(DB의 형식 언어)
업무용 데이터 관계형 DB (RDBMS)로 관리 오라클 SQL 등

반정형데이터

데이터가 행-열 구조에 맞지는 않으나 메타데이터 특성 보유(데이터의 데이터)

예 도서목록데이터, 도서 분류, 파일-메타데이터

HTML, 오픈API(XML,JSON), 로그형태

비정형 데이터

  • 음원, 이미지, 동영상등을 포함하여 특정한 형태로 묶이지 않는 데이터
  • 이메일, 트위터, 블로그처럼 모바일 기기와 온라인에서 생성되는 데이터를 포함
  • 틀이 잡혀 있지 않고 스키마 구조 혹은 메타데이터로 분류가 어려운 데이터
  • 연산이 되는 구조가 아니며, 각 데이터의 특성에 맞게 저장 및 관리됨
  • 다양하고 방대한 양의 데이터로 별도의 분석처리 기술이 필요
  • 카산드라, 몽고DB등의 NoSQL 데이터베이스를 통하여 관리

분석대상인 비정형데이터 안에서
1. 체계적이고 통계적인 규칙이나 패턴을 탐색하고
2. 이를 의미있는 정보로 변환함으로써
3. 의사결정에 적용하는 데이터 분석기법

텍스트 마이닝

텍스트 형태, 문서화된 비정형 데이터들을 자연어 처리방식을 이용하여 정보를 추출하는 기법

NLP : 인간의 언어를 기계가 이해할 수 있게하는 기술

웹 마이닝

웹로그, 검색어 등 웹에서 발생하는 행위 분석, 특성 데이터를 추출, 정제하여 의사결정에 활용

오피니언 마이닝

주관적 의견이 포함된 데이터의 사용자가 게재한 의겨노가 감정을 나타내는 패턴을 분석하는 기법

감석 분석으로서 어떤 주제에 대한 주관적인 인상, 감정, 태도, 평편, 개인의 의견등을 추출

긍정 / 부정 / 중립 단어 등의 발생 빈도를 파악

사회 연결망 분석

그룹에 속한 사람들 간의 네트워크 특성과 구조를 분석하고 시각화하는 분석 기법

0개의 댓글