빅데이터 플랫폼은 데이터의 수집, 처리, 저장 및 관리, 분석, 시각화 등의 역할 수행을 지원함으로써 새로운 insight와 비즈니스 가치 창출이 가능한 데이터 프로세스 환경을 의미한다.
빅데이터의 특징 7V
- Volume
- Variety
- 정형, 반정형, 비정형 등 다양한 종류의 데이터를 수용하는 특성
- structured data - 정형 데이터
- 데이터베이스, CSV, 엑셀과 같이 칼럼 단위의 명확한 delimeter와 형태가 존재하는 데이터
- unstructured data - 비정형 데이터
- 동영상, SNS 메세지, 사진, 오디오, 음성 데이터처럼 형태가 존재하지 않는 데이터 - NoSQL
- 비정형 데이터를 분석함으로써 새로운 인사이트와 가치를 창출함으로써 빅데이터 탄생에 큰 역할을 했음.
- semi-structured data - 반정형 데이터
- XML, HTML, JSON과 같이 여러가지 형태가 있을 수 있지만, 메타데이터나 스키마가 존재하는 데이터 - NoSQL
- Velocity
- 데이터가 얼마나 빠르게 처리/분석 되는지에 대한 특성
- Veracity
- 데이터의 신뢰성과 타당성에 관한 특성
- 방대한 양의 데이터를 분석하여 일정 패턴을 추출할 수 있는데, 이 패턴이 오류나 노이즈로 인한게 아니라 데이터의 특징이라고 신뢰할 수 있어야 한다.
- Value
- 빅데이터는 결국 비즈니스나 연구에서 유용한 가치를 이끌어낼 수 있어야 그 의미가 있다.
- Validity
- 데이터의 정확성을 의미함.
- 예를들어 labeling이 잘못된 데이터는 validity가 없는 것이고 데이터의 규모가 아무리 크더라도 의미가 없다.
- cf) veracity는 노이즈로 인해 개와 고양이의 특징을 이끌어내지 못하는 경우로 validity와는 조금 다름.
- volatility
- 데이터가 얼마나 오래 저장될 수 있고 사용될 수 있는가에 관한 특성.
- 빅데이터는 장기적인 관점에서 유용한 가치를 창출할 수있어야 한다.
빅데이터 수집
빅데이터 처리
- 불필요하거나 오류가 있는 데이터를 삭제
- 반정형, 비정형 데이터는 분석에 필요없는 데이터들을 제거해야 함.
빅데이터 저장 및 관리
- 정제된 데이터를 RDB, NoSQL DB 등에 적제
빅데이터 분석
- 대화형 분석
- 배치 분석
- 실시간 분석
- 기계 학습
- 기계 학습 알고리즘을 이용해 예측 모델을 생성하는 방법
빅데이터 시각화