중간에 추가된 일
중간에 취소된 일
장점
몇백 기가이상의 데이터를 처리할 수 있다.
예) 대형 및 메이저 사이트 이용자를 분석.
(다만 샘플링으로 안쓰고 회피하는 방법도 존재하나 보다 좋은 데이터 결과를 위해서 사용할 수 있는 수단이라는 점을 기억하자)
단점
비싸다 : 다수의 컴퓨터를 사용하여 작업한다.
※TMI 🎈
스파크의 오리지널은 Java 였으나 Python라이브러리로 사용하여도 충분한 정도.
대형 데이터를 이용하기 위해선 RAM을 32기가 이상 추천한다.
데이터타입을 조절함으로서 메모리 사용량을 30%정도 까지 조절 할 수 있다.
파이썬의 데이터타입은 기본적으로 동적이다.(개발자가 싫어함- 의도하지 않은 데이터로 자동 지정해버리기 때문에)
부동 소수점: 정수아 아닌 숫자를 표현하기 위한 방법
예) 9.893*e3 같은 형태
하나의 작업을 위해 여러 코어를 사용하는 것을 병렬 처리라 한다.
을사년을 앞 두고 년단위의 회고와 계획을 세워볼까 한다. 말하자면 YIL라고 할 수 있으려나...