[Data Engineering]ch3. Moving and processing data

망고 언니·2024년 3월 25일
  1. scheduling : 특정순서로 작업을 실행하고 모든 종속성을 올바르게 해결하여 각각의 작은 조각을 보관하고 함꼐 작동하는 방식을 구성
  • sensor scheduling -> 특정 조건이 충족되면 실행할 일부작업을 설정할 수도 있음
  1. batch vs stream processing

    Batches : 1. 한정된 대량의 데이터 2. 특정시간 3. 일괄처리
    -> 무거운 데이터를 처리 할때 좋다 하지만 데이터의 수가 달라지면 리소스를 비효율적으로 사용하게 된다.

    Stream : 1. 실시간으로 쏟아지는 데이터
    -> 실시간성이 보장될때, 데이터가 여러 소스로부터 들어올떄, 가벼운 처리를 할때 사용하게 된다.

  2. parallel computing(병렬 컴퓨팅)
    거의 모든 최신 데이터 처리 도구의 기초를 형성합니다. 이는 주로 메모리 문제뿐만 아니라 처리 능력에도 중요합니다.

  3. cloud computing for data processing

  • 임대
  • 공간 필요없음
  • 안정성
profile
안녕하세요. DBA 망고언니입니다.

0개의 댓글