언제 샘플링을 사용할까? Spark를 활용하여 대용량의 데이터를 다루다보면, 필요에 의해 데이터의 샘플링을 진행할 경우가 다수 발생한다. 아래 2가지 예시 포함 다양한 이유로 샘플링을 사용한다.-A/B테스트 등을 위해 모수를 중복없이 여러개의 샘플로 나눌때
하둡의 file은 block이라는 단위로 나뉘고, block은 여러개의 replica(복제본)으로 존재함 block의 단위는 기본적으로 128MB, 256MB등으로 설정됨
'error': throws an exception (which is the default)'skip': skips the rows containing the unseen labels entirely (removes the rows on the output!)'keep
pyspark에서 RDD의 디테일한 데이터 가공작업시에 map은 많이 사용하는 기능이다. lambda를 사용해 간단히 처리하거나, 별도의 함수를 만들어 코드를 간단히 처리할수 있다. 이때 발생하는 에러를 해결해본다.
과연 어떻게 머신러닝 모델의 완성도를 측정할까? 언제 학습(train)과 학습평가(evaluation)를 끝내고, 완성했다고 말할 수 있을까? 이 글을 통해, 이 질문에 대한 답을 찾아보자.
hive partition 정리하기 hive table에 매일매일 데이터를 쌓으며 방치하다보면, 데이터가 눈 깜짝할 새에 늘어나버린다. 필요한 이상으로. 주기적으로 파티션의 데이터를 지워줘야 하는데 기본적인 방법들을 몇가지 나열해본다. 1. 기본적인 하나의 파티션 지우기 조건 결과 * science라는 partition 내의 da...
Hive에서 제공하는 기능중에서 일반 SQL 에서는 볼 수 없는 기능들 중, 리듀서에 보내는 데이터를, 분류할 수 있는 아래 3가지에 대해 알아보도록 하자. - Sort by - Distribute by - Cluster by 실험데이터 game_accoun
통계? > 데이터 자체, '현실 그 자체' 에서 특징이나 반복되는것을 이끌어 내는 것 축약 > 데이터를 어떤 기준으로 정리정돈하여 의미있는 정보만을 추출하는 것 축약의 2가지 방법 - 그래프로 만들기 - 숫자 하나로 특징을 대표하기 (a.k.a 통계량)
개요 image 코사인 유사도는 특히 결과값이 0,1]의 범위로 떨어지는 양수 공간에서 사용된다.(from 위키피디아) 특징 계산된 유사도는 −1 ~ 1 사이의 값을 가진다. - −1은 서로 완전히 반대되는 경우 - 0은 서로 독립적인 경우 - 1은 서로 완전히