
크롤링
웹 사이트에서 정보, 뉴스, SNS 소식 등 웹문서 또는 웹 콘텐츠를 웹을 돌아 다니며 수집
스크래파이
파이썬 언어 기반 웹크롤링 프레임워크
카프카
실시간 로그처리를 위한 분산 스트리밍 플랫폼
RSS
XML 기반으로 정보를 배포하는 프로토콜을 활용
블로그, 뉴스, 쇼핑몰 등 글을 수집
Open API
응용프로그램을 실시간으로 수집할 수 있도록 공개된 API로 데이터 수집
빅데이터 모델링 - 분석기법 적용 고급분석기법 중 하나
비정형 데이터의 정의 : 정형데이터, 반정형데이터와의 비교를 중심으로
이미지, 영상, 글, 사운드 등을 의미있는 데이터를 분석하는것
그것을 비정형 데이터 분석이라고하며, 비전형 데이터 마이닝
지정된 행,열에 데이터가 구별, 입력된 형태
데이터가 스키마 구조 차용(DB의 형식 언어)
업무용 데이터 관계형 DB (RDBMS)로 관리 오라클 SQL 등
데이터가 행-열 구조에 맞지는 않으나 메타데이터 특성 보유(데이터의 데이터)
예 도서목록데이터, 도서 분류, 파일-메타데이터
HTML, 오픈API(XML,JSON), 로그형태
분석대상인 비정형데이터 안에서
1. 체계적이고 통계적인 규칙이나 패턴을 탐색하고
2. 이를 의미있는 정보로 변환함으로써
3. 의사결정에 적용하는 데이터 분석기법
텍스트 형태, 문서화된 비정형 데이터들을 자연어 처리방식을 이용하여 정보를 추출하는 기법
NLP : 인간의 언어를 기계가 이해할 수 있게하는 기술

웹로그, 검색어 등 웹에서 발생하는 행위 분석, 특성 데이터를 추출, 정제하여 의사결정에 활용

주관적 의견이 포함된 데이터의 사용자가 게재한 의겨노가 감정을 나타내는 패턴을 분석하는 기법
감석 분석으로서 어떤 주제에 대한 주관적인 인상, 감정, 태도, 평편, 개인의 의견등을 추출
긍정 / 부정 / 중립 단어 등의 발생 빈도를 파악

그룹에 속한 사람들 간의 네트워크 특성과 구조를 분석하고 시각화하는 분석 기법
