thumbnail
hive partition 정리하기 Thumbnail

hive partition 정리하기

hive partition 정리하기 hive table에 매일매일 데이터를 쌓으며 방치하다보면, 데이터가 눈 깜짝할 새에 늘어나버린다. 필요한 이상으로. 주기적으로 파티션의 데이터를 지워줘야 하는데 기본적인 방법들을 몇가지 나열해본다. 1. 기본적인 하나의 파티...

2019년 12월 11일0개의 댓글
Hive Sort by, Distribute by, Cluster by 활용도 Thumbnail

Hive Sort by, Distribute by, Cluster by 활용도

Hive에서 제공하는 기능중에서 일반 SQL 에서는 볼 수 없는 기능들 중, 리듀서에 보내는 데이터를, 분류할 수 있는 아래 3가지에 대해 알아보도록 하자. - Sort by - Distribute by - Cluster by 실험데이터 game_accoun...

2019년 5월 24일0개의 댓글
개발자 인수인계 사항 Thumbnail

개발자 인수인계 사항

개발자가 인수인계할때 준비할것들

2019년 2월 14일1개의 댓글

통계학입문 :: 도수분포와 평균

통계? > 데이터 자체, '현실 그 자체' 에서 특징이나 반복되는것을 이끌어 내는 것 축약 > 데이터를 어떤 기준으로 정리정돈하여 의미있는 정보만을 추출하는 것 축약의 2가지 방법 - 그래프로 만들기 - 숫자 하나로 특징을 대표하기 (a.k.a 통계량)

2019년 2월 10일1개의 댓글
Cosine 유사도의 특징 및 장단점 Thumbnail

Cosine 유사도의 특징 및 장단점

개요 image 코사인 유사도는 특히 결과값이 0,1]의 범위로 떨어지는 양수 공간에서 사용된다.(from 위키피디아) 특징 계산된 유사도는 −1 ~ 1 사이의 값을 가진다. - −1은 서로 완전히 반대되는 경우 - 0은 서로 독립적인 경우 - 1은 서로 완전히

2019년 2월 7일0개의 댓글