[2024.12.31]TIL

DONGMIN SONG (송동민)·2024년 12월 31일
0

TIL

목록 보기
51/72
post-thumbnail

TIL

🍔오늘 할 일

  • 최종 프로젝트 직전에 오프라인 볼일 해결
  • 스파크 1강 완료

중간에 추가된 일

중간에 취소된 일

🍟새로 배운 것

대용량 데이터 처리엔 PySpark!

장점
몇백 기가이상의 데이터를 처리할 수 있다.
예) 대형 및 메이저 사이트 이용자를 분석.
(다만 샘플링으로 안쓰고 회피하는 방법도 존재하나 보다 좋은 데이터 결과를 위해서 사용할 수 있는 수단이라는 점을 기억하자)


단점
비싸다 : 다수의 컴퓨터를 사용하여 작업한다.

스파크 강의 중 알게된 TMI🎈

※TMI 🎈
스파크의 오리지널은 Java 였으나 Python라이브러리로 사용하여도 충분한 정도.

대형 데이터를 이용하기 위해선 RAM을 32기가 이상 추천한다.
데이터타입을 조절함으로서 메모리 사용량을 30%정도 까지 조절 할 수 있다.

파이썬의 데이터타입은 기본적으로 동적이다.(개발자가 싫어함- 의도하지 않은 데이터로 자동 지정해버리기 때문에)

부동 소수점: 정수아 아닌 숫자를 표현하기 위한 방법
예) 9.893*e3 같은 형태

하나의 작업을 위해 여러 코어를 사용하는 것을 병렬 처리라 한다.

🥤계획 및 회고

을사년을 앞 두고 년단위의 회고와 계획을 세워볼까 한다. 말하자면 YIL라고 할 수 있으려나...

내일 계획

  • 일년을 회고 해보기
  • 충분한 휴식
profile
데이터 분석가를 꿈꾸고 있습니다.

0개의 댓글

관련 채용 정보