중간에 추가된 일
중간에 취소된 일
스파크 강의 2주차에 들어섰고 그 내용이 충격적이게도 스파크 강의인데 스파크를 안쓰는 방법에 대한 강의였다.(...?)
물론 스파크가 비용적으로도 힘들다보니 기피해야하는게 맞는거 같기도한데....뭔가 운전면허 수업을 들으러 갔는데, 운전을 하지않고 걷거나 대중교통을 타는 방법등을 배우는 느낌이랄까...🙄
일단 배운대로 적자면 스파크 회피법은 크게 3가지로
이렇게 있고 번외로 자동화부분이 있었는데 이부분은 자연스레 적용되는 패시브 같은 느낌의 기법이라.. 위의 3가지가 핵심이라 생각한다.
Random Sampling
가장쉽고 단순하게 난수 샘플추출이지만
표본이 우연히 편향될수 있고
매번 결과가 바뀔수 있다.(이러한 사소한 변화도 없어야한다면 적합하지 않음)
Stratified Sampling
편향을 줄이기 위한방법으로 층화 추출이라고 함
분류 문제에서 사용됨
그러나 여전히 매번 결과가 변함
Systematic Sampling(강사 추천방법)
ID처럼 가입순서만 있고 패턴같은게 보이지 않는 컬럼을 대상으로 사용한다.
영향 미치는 경우가 드물지만 그럼에도 패턴이 있는지 검사 필요
건너뛰는 단위는 소수를 사용하는것이 특정 패턴을 피하기에 좋습니다.
예를들어 짝수를 사용하면 짝/홀에 대한 패턴이 잡힐 수 있다.
한번에 하기 힘들면 10번씩 나눠서 작업하는 방식으로 쪼개서 한다.
(단, 데이터가 완벽하게 분할되는 경우에 한해 가능하다)
※파일은 몇십기가 형태는 올바르지 않다. 1~2기가 정도로 짤라 보관하는게 올바르다.
Dask 또한 분산 처리 도구이지만, Spark보다는 비교적 가볍게 사용할 수 있다는점.. 정도?
단, 여전히 여러대의 컴퓨터를 이용해야 한다.
(솔직히 Dask는 왜쓰는진 모르겠다. 이거쓸거면 그냥 Spark쓰면 되지않나..? 가볍다고 했는데 실상 사용하는 자원은 비슷할정도로 많으니;;)
솔직히 최종 프로젝트 데이터가 아직 결정되지않아 신경쓰여 수업에 그렇게 집중하지 못했다. 수업내용 자체도 뭔가 스파크 쓰지말라고! 느낌이라..😮 내일은 QCC와 라이브섹션 둘다 있는 날이라 바쁠거같다. 마지막 스파크 3강까지 듣는게 목표인데 되려나..?