[인프런] 빅데이터 파일럿 프로젝트

타키탸키·2022년 5월 11일
0

데이터 사이언스

목록 보기
17/26

빅데이터 개념

빅데이터 정의: 6V

  • 3V + 2V = 1V
    • 3V
      • 크기
      • 다양성
      • 속도
    • 2V
      • 진실성
      • 시각화
    • 1V
      • 가치
  • 크기(Volume)
    • 방대한 양의 데이터(테라, 페타바이트 이상)
  • 다양성(Variety)
    • 정형(DBMS...) + 비정형(SNS, 동영상...)
  • 속도(Velocity)
    • 실시간 생산, 데이터 처리/분석
  • 진실성(Veracity)
    • 주요 의사 결정을 위해 데이터의 품질과 신뢰성 확보
  • 시각화(Visualization)
    • 복잡한 대규모 데이터를 시각적으로 표현
  • 가치(Value)
    • 비즈니스 효익을 실현하기 위해 궁극적 가치 창출

빅데이터 프로세스

  • 수집
    • 실시간
    • 배치
  • 적재
  • 처리/탐색
  • 분석/응용

파일럿 프로젝트 단계

  • 도메인 이해
    • 요구사항 도출 및 분석
  • 아키텍처 이해
    • SW/HW 아키텍처 이해
  • 프로젝트용 PC 환경 구성
    • 자바, 이클립스, 오라클 버추얼 박스
  • 프로젝트용 PC 서버 구성
    • 리눅스 서버(CentOS)
      • 3개의 가상 머신
      • 분산 클러스터 환경
  • CM(Cloudera Manager) 설치
    • sw 설치/관리
      • 하둡
      • 주키퍼
  • 로그 시뮬레이터 설치
    • 로그 데이터를 생성하는 자바 프로그램 설치
  • 파일럿 환경 관리
    • 안전하게 시작 및 종료하는 방법

아키텍처 이해

수집 레이어

  • 수집 영역
    • 배치
      • 플럼
    • 실시간
      • 플럼 >> 카프카 >> 스톰/에스퍼

적재 레이어

  • 적재 영역
    • 배치
      • 하둡
    • 실시간
      • HBase
      • 레디스(이벤트)

처리/탐색 레이어

  • 처리/탐색 영역
    • 하이브/스파크
    • 우지
  • 데이터 마트 및 데이터 웨어하우스 구축

  • HDFS 복제 계수
    • 복제 계수
      • 서버에 사용자가 저장한 파일을 분리하여 저장
      • 분리된 파일을 다른 서버에 복제
      • ex:) 200MB 파일을 128MB(블록)/72MB로 분리 저장
    • 하둡의 기본 복제 계수는 3개
    • 복제 계수가 필요한 이유
      • 안정성
      • 큰 파일을 분산 처리하여 속도를 높이기 위함(병렬성)
profile
There's Only One Thing To Do: Learn All We Can

0개의 댓글