타키탸키
로그인
타키탸키
로그인
[인프런] 빅데이터 파일럿 프로젝트
타키탸키
·
2022년 5월 11일
팔로우
0
0
데이터 사이언스
목록 보기
17/26
빅데이터 개념
빅데이터 정의: 6V
3V + 2V = 1V
3V
크기
다양성
속도
2V
진실성
시각화
1V
가치
크기(Volume)
방대한 양의 데이터(테라, 페타바이트 이상)
다양성(Variety)
정형(DBMS...) + 비정형(SNS, 동영상...)
속도(Velocity)
실시간 생산, 데이터 처리/분석
진실성(Veracity)
주요 의사 결정을 위해 데이터의 품질과 신뢰성 확보
시각화(Visualization)
복잡한 대규모 데이터를 시각적으로 표현
가치(Value)
비즈니스 효익을 실현하기 위해 궁극적 가치 창출
빅데이터 프로세스
수집
실시간
배치
적재
처리/탐색
분석/응용
파일럿 프로젝트 단계
도메인 이해
요구사항 도출 및 분석
아키텍처 이해
SW/HW 아키텍처 이해
프로젝트용 PC 환경 구성
자바, 이클립스, 오라클 버추얼 박스
프로젝트용 PC 서버 구성
리눅스 서버(CentOS)
3개의 가상 머신
분산 클러스터 환경
CM(Cloudera Manager) 설치
sw 설치/관리
하둡
주키퍼
로그 시뮬레이터 설치
로그 데이터를 생성하는 자바 프로그램 설치
파일럿 환경 관리
안전하게 시작 및 종료하는 방법
아키텍처 이해
수집 레이어
수집 영역
배치
플럼
실시간
플럼 >> 카프카 >> 스톰/에스퍼
적재 레이어
적재 영역
배치
하둡
실시간
HBase
레디스(이벤트)
처리/탐색 레이어
처리/탐색 영역
휴
하이브/스파크
우지
데이터 마트 및 데이터 웨어하우스 구축
HDFS 복제 계수
복제 계수
서버에 사용자가 저장한 파일을 분리하여 저장
분리된 파일을 다른 서버에 복제
ex:) 200MB 파일을 128MB(블록)/72MB로 분리 저장
하둡의 기본 복제 계수는 3개
복제 계수가 필요한 이유
안정성
큰 파일을 분산 처리하여 속도를 높이기 위함(병렬성)
타키탸키
There's Only One Thing To Do: Learn All We Can
팔로우
이전 포스트
데이터 만들기
다음 포스트
[인프런] 빅데이터 파일럿 프로젝트2
0개의 댓글
댓글 작성