[spark] 2. 빅데이터 처리가 갖는 특징

data_hamster·2023년 7월 4일
0

학습주제
빅데이터 처리가 갖는 특징, 문제점

학습내용

어려움


큰 데이터를 어떻게 손실 없이 보관할까?
어딘가 보관할 수 있어야 하는데, 데이터를 보관할 때 손실이 없어야 함.

실제 프로세싱을 넘어가서
시리얼하게 처리하려면 엄청나게 시간이 걸림.
따라서 병렬처리 기술이 필수적이게 됨.

SQL과 같은 언어로 처리할 수 있는 데이터는 구조화된 데이터, 빅데이터는 상당수가 반,비구조화 데이터
웹 로그 파일을 보면
포맷이라는게 완전히 없는건 아니지만, 쉽게 읽어서 파싱할 수 있는 형태는 아님. SELECT 이런 문을 사용할 수 없음.
스트럭쳐화 하고 그다음 처리 가능.
오디오, 비디오 파일 같은 경우 포맷이 없다고 봐도 됨.

큰데이터를 보관할 스토리지 필요, 병렬처리 필요, 비구조화된 데이터도 처리할 방법이 있어야 함.

해법


하나의 서버로 굉장히 큰 데이터를 저장, 읽기는 힘듦. 다수 서버로 구성된 분산 파일 시스템 필요.
병렬처리가 필요한데, 다수의 서버가 참여해서 각자 맡은 포션의 데이터를 처리가 가능한 분산 컴퓨팅 시스템이 필요.
비구조화 된 데이터를 처리할려면, 꼭 구조화된 데이터가 아니라도 처리할 수 있게 함.

다수의 서버가 하나의 로지컬한 서버로 활동하는 프레임워크가 필요해짐.

  • 분산 파일 시스템
  • 분산 컴퓨팅 시스템
    두개는 다른 의미임 주의.

대용량 분산 시스템

프레임워크의 특징

한대의 서버가 처리할 수 없는 크기를 저장, 처리 가능.

  • 분산 파일 시스템
    이런 데이터를 처리할 수 있는
  • 분산 컴퓨팅 시스템

Fault Tolerance

다수 서버 시스템은 항상 그중 몇개는 고장날 수 있음. - 몇개가 고장나도 계속 작동할 수 있어야함.
파일도 손상이 없어야하고, 프로세싱에도 문제가 없어야 함.

분산시스템은 스케일 아웃이 되어야 함.
마스터/슬레이브로 구성이 됨. 그림을 보면.
시스템 용량이 부족하면 슬레이브를 추가해 나감.

대용량 처리가 갖는 특징과 해법에 대해 알아보았다.

profile
반갑습니다 햄스터 좋아합니다

0개의 댓글