사이킷런 원핫인코딩
https://injo.tistory.com/11
https://m.blog.naver.com/PostView.nhn?blogId=wideeyed&logNo=221343373342&proxyReferer=https:%2F%2Fwww.google.com%2F
spark란 판다스가 분산환경에서 되고 sql이 지원되는 버전이라고 생각하면 됨
scale-up 컴퓨터 한대의 사양을 높임
scale-out 대수를 높임
하둡 1.0은 HDFS위에 MapReduce라는 분산컴퓨팅 시스템이 도는 구조였으나 개발의 까다로움 때문에 생산성이 많이 떨어졌다.
그래서 하둡2.0 부터는 YARN이라는 분산 컴퓨팅 시스템 위에 MapReduce, Spark, Tez 등이 어플리케이션 형태로 도는 식으로 아키텍쳐가 크게 바뀌었다.