profile
hi there
post-thumbnail

RDD map, filter 외부 모듈 함수 사용하기 in pyspark

pyspark에서 RDD의 디테일한 데이터 가공작업시에 map은 많이 사용하는 기능이다. lambda를 사용해 간단히 처리하거나, 별도의 함수를 만들어 코드를 간단히 처리할수 있다. 이때 발생하는 에러를 해결해본다.

2020년 5월 30일
·
0개의 댓글
post-thumbnail

(번역) 머신러닝 모델의 평가지표

과연 어떻게 머신러닝 모델의 완성도를 측정할까? 언제 학습(train)과 학습평가(evaluation)를 끝내고, 완성했다고 말할 수 있을까? 이 글을 통해, 이 질문에 대한 답을 찾아보자.

2020년 4월 29일
·
0개의 댓글
post-thumbnail

hive partition 정리하기

hive partition 정리하기 hive table에 매일매일 데이터를 쌓으며 방치하다보면, 데이터가 눈 깜짝할 새에 늘어나버린다. 필요한 이상으로. 주기적으로 파티션의 데이터를 지워줘야 하는데 기본적인 방법들을 몇가지 나열해본다. 1. 기본적인 하나의 파티션 지우기 조건 결과 * science라는 partition 내의 da...

2019년 12월 11일
·
0개의 댓글
post-thumbnail

Hive Sort by, Distribute by, Cluster by 활용도

Hive에서 제공하는 기능중에서 일반 SQL 에서는 볼 수 없는 기능들 중, 리듀서에 보내는 데이터를, 분류할 수 있는 아래 3가지에 대해 알아보도록 하자. - Sort by - Distribute by - Cluster by 실험데이터 game_accoun

2019년 5월 24일
·
0개의 댓글
post-thumbnail

개발자 인수인계 사항

개발자가 인수인계할때 준비할것들

2019년 2월 14일
·
1개의 댓글

통계학입문 :: 도수분포와 평균

통계? > 데이터 자체, '현실 그 자체' 에서 특징이나 반복되는것을 이끌어 내는 것 축약 > 데이터를 어떤 기준으로 정리정돈하여 의미있는 정보만을 추출하는 것 축약의 2가지 방법 - 그래프로 만들기 - 숫자 하나로 특징을 대표하기 (a.k.a 통계량)

2019년 2월 10일
·
1개의 댓글
post-thumbnail

Cosine 유사도의 특징 및 장단점

개요 image 코사인 유사도는 특히 결과값이 0,1]의 범위로 떨어지는 양수 공간에서 사용된다.(from 위키피디아) 특징 계산된 유사도는 −1 ~ 1 사이의 값을 가진다. - −1은 서로 완전히 반대되는 경우 - 0은 서로 독립적인 경우 - 1은 서로 완전히

2019년 2월 7일
·
0개의 댓글