profile
hi there
post-thumbnail

Spark에서 sample() API 알고 쓰기

언제 샘플링을 사용할까? Spark를 활용하여 대용량의 데이터를 다루다보면, 필요에 의해 데이터의 샘플링을 진행할 경우가 다수 발생한다. 아래 2가지 예시 포함 다양한 이유로 샘플링을 사용한다.-A/B테스트 등을 위해 모수를 중복없이 여러개의 샘플로 나눌때

2023년 1월 8일
·
0개의 댓글
·
post-thumbnail

[hadoop] missing block의 이해, 발생원인

하둡의 file은 block이라는 단위로 나뉘고, block은 여러개의 replica(복제본)으로 존재함 block의 단위는 기본적으로 128MB, 256MB등으로 설정됨

2023년 1월 7일
·
0개의 댓글
·

spark ML에서 StringIndexer: handling unseen labels를 보았다면

'error': throws an exception (which is the default)'skip': skips the rows containing the unseen labels entirely (removes the rows on the output!)'keep

2021년 7월 21일
·
0개의 댓글
·
post-thumbnail

저평가섹터, 종목 선정실험(21년02월)

Top down 방식으로 주식 종목 screening 하여 가치주(저평가) 종목을 찾는것

2021년 2월 20일
·
0개의 댓글
·
post-thumbnail

RDD map, filter 외부 모듈 함수 사용하기 in pyspark

pyspark에서 RDD의 디테일한 데이터 가공작업시에 map은 많이 사용하는 기능이다. lambda를 사용해 간단히 처리하거나, 별도의 함수를 만들어 코드를 간단히 처리할수 있다. 이때 발생하는 에러를 해결해본다.

2020년 5월 30일
·
0개의 댓글
·
post-thumbnail

(번역) 머신러닝 모델의 평가지표

과연 어떻게 머신러닝 모델의 완성도를 측정할까? 언제 학습(train)과 학습평가(evaluation)를 끝내고, 완성했다고 말할 수 있을까? 이 글을 통해, 이 질문에 대한 답을 찾아보자.

2020년 4월 29일
·
0개의 댓글
·
post-thumbnail

hive partition 정리하기

hive partition 정리하기 hive table에 매일매일 데이터를 쌓으며 방치하다보면, 데이터가 눈 깜짝할 새에 늘어나버린다. 필요한 이상으로. 주기적으로 파티션의 데이터를 지워줘야 하는데 기본적인 방법들을 몇가지 나열해본다. 1. 기본적인 하나의 파티션 지우기 조건 결과 * science라는 partition 내의 da...

2019년 12월 11일
·
0개의 댓글
·
post-thumbnail

Hive Sort by, Distribute by, Cluster by 활용도

Hive에서 제공하는 기능중에서 일반 SQL 에서는 볼 수 없는 기능들 중, 리듀서에 보내는 데이터를, 분류할 수 있는 아래 3가지에 대해 알아보도록 하자. - Sort by - Distribute by - Cluster by 실험데이터 game_accoun

2019년 5월 24일
·
2개의 댓글
·
post-thumbnail

개발자 인수인계 사항

개발자가 인수인계할때 준비할것들

2019년 2월 14일
·
1개의 댓글
·

통계학입문 :: 도수분포와 평균

통계? > 데이터 자체, '현실 그 자체' 에서 특징이나 반복되는것을 이끌어 내는 것 축약 > 데이터를 어떤 기준으로 정리정돈하여 의미있는 정보만을 추출하는 것 축약의 2가지 방법 - 그래프로 만들기 - 숫자 하나로 특징을 대표하기 (a.k.a 통계량)

2019년 2월 10일
·
1개의 댓글
·
post-thumbnail

Cosine 유사도의 특징 및 장단점

개요 image 코사인 유사도는 특히 결과값이 0,1]의 범위로 떨어지는 양수 공간에서 사용된다.(from 위키피디아) 특징 계산된 유사도는 −1 ~ 1 사이의 값을 가진다. - −1은 서로 완전히 반대되는 경우 - 0은 서로 독립적인 경우 - 1은 서로 완전히

2019년 2월 7일
·
0개의 댓글
·